Kotz’i’jに恋して10

プログラムに何とか形態素解析を取り組みたいと思う。アルファベットを用いたキチェ語では英語の様に各単語を離して表記するため、日本語程難しくはならないと思う。ただ、動詞を用いない会話も多いため、その点が少し問題となり得る。

取り敢えず、形態素解析をひとまず隅において、Kotz’i’jがユーザーが入力した文章を用いることが出来る仕様にした。辞書ファイルへの書き込みや入力内容の評価といったことが形態素解析にも繋がるので次に向けたステップとしては中々良いかな。

まぁ、恋するプログラムも同じ手順を踏んでいるということもあるけれど。

でプログラムだけど今回は3つのソース・ファイルを修正。

Dictionary.rb

Kotzij.rb

Tzijonik.rb

プログラムの更新を分かりやすくするため、単語リストはトマト(pix)の一単語のみとしてみた。

実行してみる。

途中からKotz’ijがスペイン語を話し始めてしまった。

ちなみにXwanというのはスペイン語のJuan、Ko’zijのスペルは発音を間違えたと仮定して元々とは違う形で入力してみた。

プログラム終了時に単語リストはこうなっていた。

スペイン語を話し始めたKotz’ijだけど次回からは本格的にキチェ語を学ぶ様になるかな?まずはやはり名詞から始めようと思う。

 

自然言語処理

形態素解析に関係した自然言語処理の本を色々探していたらこの本を見つけた。 このレベルの本が無料で手に入るのは凄い!O’Reillyも結構な大盤振る舞いだこと。

日本語版もあるそうで、日本語の処理に特化したも読める。

さてと、Kotz’ijを更新しないと。

Kotz’i’jに恋して9

単語数も順調に増えてきたけど、今後はKotz’i’jの発言をより充実させるものにするためには、形態素解析が必要。英語や日本語では幾つかプログラムがあるけど、キチェ語も他のマヤ諸言語もそんなものはない。

スタンフォード大学が作っている英語とかのプロジェクトを基にしても良いけど、今のところ、キチェ語の語彙数も少ないので単純なプログラムを作った方が良いかな。

取り敢えずMeCabの辞書ファイルを拾って読み込んでみた。これはかなり大変そう。形態素解析(morphological analysis)についてはノラ・イングランドがキチェ語の文法本でも触れているのでそれを参考にしてみようと思う。