2022/11/17
フリガナの付いたタイ語のテキストで勉強した後、SNSなどで生のタイ語の文章を見るとショックを受けますね。単語の間にスペースがないので単語の区切りが分からない。発音記号やカナが振っていないので、どう発音していいか分からない。
そういった方々のサポートになれば、という目的でYomiThaiを作りました。YomiThaiはタイ語文の単語や音節の区切りを見つけ、母音の中心としたパターンマッチングとタイ語の声調規則に基づき、発音記号とカナに変換します。翻訳はしません。タイ語文の意味はGoogle翻訳などで確認して下さい。タイ語を読めるようになれば、生のタイ語に拒否感を感じなくなりますし、タイの街にあふれるタイ語の看板やメニューなども読めるようになり楽しみが増えると思います。是非試してみて下さい。
Vectorライブラリでも公開しています -> こちら
1. 複数行文の変換を行う主画面と、分析を行うLabo画面の2画面構成にしました。
・Labo画面では発音記号とカナのオプション指定が可能なので、変換させながら確認できます。
2. 変換精度の向上
(1)声調規則は上声だけど実際は高声で発音される単語を高声にしました。
・単語3語:ฉัน(私)、ไหม(疑問を表す文末の語)、เขา(彼)
・補足1:ไหมは、絹の意味では上声なので、ผ้าไหม(絹の布)など絹の意味のไหมを含む10個の熟語は外部ファイルで上声にしました。 他は疑問の文末で扱います。
・補足2:เขาは、山の意味では上声なので、ภูเขา(山)など山の意味のเขาを含む14個の熟語は外部ファイルで上声にしました。 他は彼の意味で使います。
(2)単語切り出し用の外部ファイルの中で子音連続を含む語の使用を標準でOFFにしました。副作用が強いため。
(3)その他、外部ファイルに12個のデータを加えました。
3. ひらがなタイ文字変換ツールに声調を考慮した疑問の語を追加しました。
・ですか?、ますか?、ましたか?
4. 長音の二重母音において長音符の表記をしないオプションを設けました。
・Labo画面で「長音符を用いない」にチェックを入れます。
※Vectorから購入される場合、Vectorの手数料と消費税がかかるので+110円上がります。
※優待価格ご利用の場合は、送金前にお名前と茜PADの購入年月を作者に送り、茜PADユーザーであることを確認して下さい。
この画面の目標は、SNSに投稿されたタイ語の文章やフリガナなどの付いていないタイ語教本の文章の読みをざっくり得ることです。複数行文を扱えるので途中改行のある文章でも変換します。
変換結果の評価を判定インジケーターの色で行います。青ならOK,赤なら問題あり、黄色は、ある対策をとればOKになる可能性のある結果の意味になります。
Ver3の主画面は複数行変換画面
ブラウザでコピーしたら貼り付けボタンを押し
変換キー(F7)を押すだけ
*馬場陽子著「タイ語で暮らしたい」から
ここでの目標は1行の単語の文章を単語または音節で切り出し、それらが正しく変換されているか経過をチェックすることです。使い方としては主画面でF8キーを押すとLabo画面に移行します。再度F7キーで変換すると、単語や音節区切りの経過も表示されます。
問題解決の主な方法は2つです。単語の区切りが正しくない場合はタイ語原文の正しい区切り場所にスペースを挿入すること。もうひとつは文章の中で判定の正しい部分を確認しながら未知の単語(判定の赤になる単語)を見つけることです。下の例では、最初の「ウーム」という相槌の意味の単語がYomiThaiの未対応単語で、判定が赤になったのでした。(この単語は黙音符を付けないものが多いようなので今も組み込んでいません。)
Labo画面
1行文を変換し問題個所を見つけます。
*「タイ語で暮らしたい」から、「そうですね、風がでてきはじめました。」の意味
このLabo画面では、また発音記号や発音カナの表記方法に関してのオプションを変更してその結果を確認することも可能です。ここでの変更は主画面にも反映され記憶されます。
このアプリの検証のために多くのタイ語の文章の変換をしてきました。大部分は判定が青なら正しい変換をするのですが、タイ語の意味の解析はしないので、間違ったところで単語を区切る可能性があります。
例を挙げます。タイ語で「医者は言った」という意味の一部"หมอบอก"という2語のつながりがあります。YomiThaiで、あるオプションを外し変換すると下のように「モープ オック」となります。判定は青です。タイ語には"หมอบ"は「伏せる」という動詞。"อก"は「胸」という名詞があり、単語の組合せとして成立するのです。でも変です。(YomiThaiのオプションの初期値では「音節区切り位置ファイル」参照のオプションをONにしてあるので正しく変換されます)
判定が青でも違和感があるとき
タイ語原文の正しい単語区切りの位置に
スペースを挿入、再変換。うまく行きました。
YomiThaiの変換エンジンのコアの部分は、タイ語の母音の構成とのパターンマッチングです。タイ語の母音の構成とは、タイ語の辞書の順番がそれに従っている、子音、母音記号、マイタイクーの組合せですね。1つの子音文字に対し36個あります。
例を挙げると、子音が2個ならぶと母音[o]を補い、前を頭子音、後ろを末子音で読むパターン。これがNo1。子音+ว+子音は、頭子音+[ua]+末子音という二重母音のパターン、美しいの意味のタイ語สวย スーワイのような感じです。これがNo2。このような母音記号と子音の構成の種類が36個あるのです。
ただ、この母音の構成を基礎にプログラムで文章を扱うにはもう少し網羅的でないといけません。頭子音は1個と2個のときがあります。声調記号が付くときと付かないときがあります。末子音があるときとない時があります。それらの場合分けをしたらコアの部分で200個弱ありました。そのパターンのどれに一致するかを文章の頭からパターンマチングでチェックし、一致したら、頭子音が中子音か高子音か低子音か判断し、さらに音節が促音節か平音節か、長母音か短母音か、声調記号の種類を勘案し実際の声調を判断します。それらを基に、IPAの発音記号とカナを生成します。
ただ、すべてがこのパターンのどれかに当てはまればいいですが、タイ語は例外がとても多い。それらは外部ファイルに発音記号とカナの直接対応表を持っており、特異な単語はコアの変換機能を使わずダイレクトに変換します。下に参照する外部ファイルを紹介します。
これ以外に外部ファイルとしては、単語切り出し用の外部ファイルもあります。母音で終わる語、子音連続の語、2語のつながった場合の単語区切り指定用です。また、子音.子音.の形で表現されるタイ語の略語についての外部ファイル、タイ数字の読み方に関する外部ファイルもあります。これらをコアの部分のパターンマチングを行う前にチェックし、該当するものはダイレクトに発音記号とカナに変換します。
これはタイの方に日本語の発音を伝える目的で作ったツールです。面白いかなと思い作りました。ひらがなで文章を入力し、順に変換するとタイ語の音節の組合せが出力される仕組みです。
例えば日本人が、旅行で来たタイ人の友人と魚売り場併設の食堂に来た状況を考えて下さい。新鮮でうまそうな魚を見て、食べたく思ったタイ人。「この魚を焼いてもらえますか?」と自分で言ってみたい。日本の友人はこのツールにひらがなで日本語入れて変換しタイ文字になった文をタイ人の友人に見せて、こう発音してみて?という状況です。検証はGoogle翻訳の読み上げ機能で確認してみて下さい。
ひらがなタイ文字変換。
※補足:
ローマ字欄で$で囲われた文字は固有名詞や、疑問文の末尾の声調を反映したタイ文字で、定型のタイ文字化された語句になります。ダイレクト変換します。
例えば「焼いて」の「て」を口を横に引く「て」にする場合、発音記号欄のteをtEとeを大文字にしてから変換します。短母音を長母音にするにはeをeeにすると長母音になります。また、tやkやpを有気音にするにはthやkhやphにすると、有気音になります。
声調に関しては、最後のタイ文字欄にカーソルを入れるとAutoIMEボックスにチェックを入れているとタイ語キーボードになるので、子音字に声調記号を付加して調整します。
変換の調整方法の一例
■最新バージョン: Ver 3(近日公開予定)
公開日 | バージョン | 主な変更点 |
---|---|---|
2020/04/12 | Ver 1 | 初版公開 (茜PADの変換機能を向上させました) |
2020/04/19 | Ver 1.2 | Windowsのディスプレー設定に応じて、画面サイズと文字の大きさを可変にしました。(文字サイズが125%のとき大きくなります) |
2020/06/10 | Ver 1.3 | (1)外部ファイルを、1万語以上の単語でチェックし改良しました。 (2)日本語のタイ文字変換ツールを組み込みました。 |
2020/07/15 | Ver 1.4 | (1)会話文を中心に三修社「タイ語スピーキング」吉田英人著で検証し、間違った箇所は改良しました。 (2)小さな改良をしました。 |
2020/08/5 | Ver 2.0 | (1)三修社「タイ語スピーキング」吉田英人著の全例文で検証し、間違った箇所は改良しました。 (2)バグフィックスをしました。 |
2022/11/17 | Ver 3 | (1)画面構成を変更しました。 (2)変換精度の向上を図りました。 *白水社、馬場陽子著「タイ語で暮らしたい」の例文で検証しました。 |
■謝辞:タイ語の発音記号やカナの表記は本によって様々ですが、実績のある以下の本を主に参考にして開発しました。