Feedback to improve reading accuracy of Japanese sentences

OpenAI has problems identifying Japanese text. Even though the tag on the clothes says “Made in Frasos,” it mistakenly identifies it as “Made in France.” It also has weaknesses in the recognition accuracy of some hiragana characters.

In order to more accurately detect irregularities in counterfeit labels in Japanese and machine-translated Japanese text, we propose the following improvements.

  1. Character clearance detection function

• Detects abnormalities when the balance of character spacing (spacing) between hiragana, katakana, and kanji is unnatural.

• Example: Indicating excessively empty/close spaces.

  1. Context identification of characters with similar shapes

• Pay attention to misrecognition of characters with similar shapes, such as the katakana characters “so” and “n” and the hiragana characters “chi” and “sa,” and determine the correct character based on the context before and after.

  1. Detection of irregularities in reading rhythm and pronunciation

• When a sentence with typos is read naturally aloud, it can sound “playful” or “unnatural.”

• Example: “shitachii” sounds abnormally childish or playful when read aloud.

  1. Check the naturalness of the entire context

• Evaluate whether the meaning is clear as a whole sentence, not as individual words, and whether it is a natural Japanese expression.

  1. Actual examples of findings

• “Made in Frasos” → Correct: “Made in France”

• “100% cottoso” → Correct: “100% cotton”

• “Please iron from the buck”
*Untranslatable. The letters ra and chi are mixed up.

• “Dotei cleanisog” → Correct: “Dry cleaning”

We believe that these detection enhancements will enable more accurate detection of false labels and abnormal Japanese that native Japanese speakers find strange.

Summary

• In addition to simple character recognition (OCR), linguistic fluency, context, and natural phonology should also be included in the evaluation.

• In particular, in Japanese, misrecognition of character shapes and a breakdown in natural rhythm create strong sense of strangeness, so if machines can detect these, we expect the quality to improve dramatically.

The following is the original Japanese text.

日本語ラベルに対する違和感検知と誤認識改善の提案

日本語における偽造ラベルや機械翻訳された日本語文に関する違和感を、より正確に検知するため、以下の改良を提案します。

  1. 文字間のクリアランス(字間)検知機能

• ひらがな・カタカナ・漢字間の字間(間隔)バランスが不自然な場合を異常検知する。

• 例:過剰に空いている/詰まっている箇所の指摘。

  1. 形状類似文字の文脈識別

• カタカナ「ソ」と「ン」、ひらがな「ち」と「さ」など、形が似た文字の誤認に注意し、前後の文脈とあわせて正しい文字を判定する。

  1. 音読リズム・発音違和感の検知

• 誤字がある文章を自然に音読すると「ふざけている」または「不自然に感じる」現象がある。

• 例:「下ちい」などは、読み上げると異常な幼稚さ・ふざけ感を持つ。

  1. 文脈全体の自然さチェック

• 単語単位ではなく、文全体として意味が通じるか、自然な日本語表現になっているかを評価する。

  1. 実際の指摘例

• 「フランソス製」→ 正しくは「フランス製」

• 「100%コットソ」→ 正しくは「100%コットン」

• 「アイロンは裏かち当てて下さい」→ 正しくは「アイロンは裏から当てて下さい」

• 「ドテイクリーニソグして下ちい」→ 正しくは「ドライクリーニングして下さい」

これらの検出強化により、日本語母語話者が違和感を持つ偽装ラベルや異常な日本語を、より高精度で検知できるようになると考えます。

まとめ

• 単純な文字認識(OCR)だけでなく、言語的流暢性、文脈、自然な音韻性も評価対象に含めるべき。

• 特に日本語では、文字の形状誤認や自然なリズム感の崩れが違和感を強く生むため、これを機械が検知できるようになれば、品質が飛躍的に向上すると期待します。