When using Japanese text with models like gpt-4o-mini-tts or tts-1, I’ve noticed that the length of a paragraph significantly affects the naturalness of the generated speech.
For example, here are two versions of the same content:
Sample 1 (with line breaks between sentences):
読書は、私たちの想像力を豊かにし、心の世界を広げてくれる貴重な体験です。小説を読むことで、現実とは異なる世界に旅することができ、登場人物の感情や出来事を追体験することで、他者への理解も深まります。 また、知識を得る手段としての読書も非常に有効で、歴史、科学、哲学など、さまざまな分野の情報を自分のペースで吸収できます。
現代ではインターネットや動画など、情報を得る方法が多様化していますが、本を手に取ってじっくりと読み進める時間には、他のメディアにはない深い集中と静けさがあります。 読書を習慣にすることで、語彙力や表現力が高まり、思考力や論理的な判断力も養われるため、日常生活や仕事においても大きな助けとなります。
Sample 2 (same content as a single paragraph):
読書は、私たちの想像力を豊かにし、心の世界を広げてくれる貴重な体験です。小説を読むことで、現実とは異なる世界に旅することができ、登場人物の感情や出来事を追体験することで、他者への理解も深まります。また、知識を得る手段としての読書も非常に有効で、歴史、科学、哲学など、さまざまな分野の情報を自分のペースで吸収できます。現代ではインターネットや動画など、情報を得る方法が多様化していますが、本を手に取ってじっくりと読み進める時間には、他のメディアにはない深い集中と静けさがあります。読書を習慣にすることで、語彙力や表現力が高まり、思考力や論理的な判断力も養われるため、日常生活や仕事においても大きな助けとなります。
Note:
I wanted to share a video with audio to demonstrate the issue more clearly, but it seems that I couldn’t include links to YouTube or Google Drive in this post.
If there’s any way to share videos on this platform that I may have missed, I’d really appreciate it if someone could let me know.
When using Sample 2, the TTS output becomes noticeably unnatural in tone and phrasing partway through the paragraph. This doesn’t happen with Sample 1, which has breaks between sentences.
I understand that Japanese sentence structure can be more challenging than in other languages, but if it’s possible to improve how long Japanese paragraphs are handled by the TTS models, I would deeply appreciate it. This would make the voice output much more natural and useful for real-world applications.
Thank you for your amazing work and continued improvements!