-
Notifications
You must be signed in to change notification settings - Fork 7
実装可能なIMEの方式
今だとさすがにちょっと使いたい人はいなさそうなやつ。
独特すぎるやつ。
ヒューリスティックに割とうまくいくやつ。
N文節最長一致は、文節単位で細かく入力する場合に限ってはうまく働くような気がする。入力が1文節で構成されると仮定していいのなら、不必要に細かく分割するより最長一致がいい場合もある。 https://twitter.com/taku910/status/15560702282
文節の一致はいいとして、その文節のなかでどういう順番で並べ替えるかも重要。
ノードとエッジにコストを付与し、最短経路を見つける。 ビタビアルゴリズムで全経路を探すのが最近のコンピュータでは現実的な時間で終わるので、この方式が 2022年時点では流行ってるっぽい。
さて、そうなってくるとコストをどうつけるかが工夫のしどころになってきます。
mozc はこれ。
https://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/C4-6.pdf
- 構造化パーセプトロン
- 構造化SVM
などを用いて作る。
統計的かな漢字変換システム Mozc で述べられているようなデメリットも有る。
コストを 2-gram でつけて最短経路を探す方式だけでは、共起のようなものが表現できない。
- 夏は暑い
- 板が厚い
のようなものを、両方成立させるようにコストを調整するのは難しい。
ニューラルかな漢字変換 のように、RNN を用いる方法もある。 が、RNN でやるのコンピューティングリソースが大量に必要だと思われるので(※要出典)、OSS として持続可能な状態をキープするという意味では難しいと思われる。
(ニューラルかな漢字変換の記事では 4-gram 以上は無意味と書いてあるが、実際にはそうではないという言説https://takeda25.hatenablog.jp/entry/20161228/1482933653)