Skip to content

実装可能なIMEの方式

Tokuhiro Matsuno edited this page Jan 12, 2023 · 5 revisions

単文節変換

今だとさすがにちょっと使いたい人はいなさそうなやつ。

SKK 方式

独特すぎるやつ。

N文節最長一致方式

ヒューリスティックに割とうまくいくやつ。

N文節最長一致は、文節単位で細かく入力する場合に限ってはうまく働くような気がする。入力が1文節で構成されると仮定していいのなら、不必要に細かく分割するより最長一致がいい場合もある。 https://twitter.com/taku910/status/15560702282

文節の一致はいいとして、その文節のなかでどういう順番で並べ替えるかも重要。

最短コスト法

ノードとエッジにコストを付与し、最短経路を見つける。 ビタビアルゴリズムで全経路を探すのが最近のコンピュータでは現実的な時間で終わるので、この方式が 2022年時点では流行ってるっぽい。

さて、そうなってくるとコストをどうつけるかが工夫のしどころになってきます。

統計的かな漢字変換

mozc はこれ。

識別モデル

https://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/C4-6.pdf

  • 構造化パーセプトロン
  • 構造化SVM

などを用いて作る。

統計的かな漢字変換システム Mozc で述べられているようなデメリットも有る。

共起コスト

コストを 2-gram でつけて最短経路を探す方式だけでは、共起のようなものが表現できない。

  • 夏は暑い
  • 板が厚い

のようなものを、両方成立させるようにコストを調整するのは難しい。

ニューラルかな漢字変換 のように、RNN を用いる方法もある。 が、RNN でやるのコンピューティングリソースが大量に必要だと思われるので(※要出典)、OSS として持続可能な状態をキープするという意味では難しいと思われる。

(ニューラルかな漢字変換の記事では 4-gram 以上は無意味と書いてあるが、実際にはそうではないという言説https://takeda25.hatenablog.jp/entry/20161228/1482933653)