らこらこブログ

唐揚げとアニメとプログラミングが大好きです

メカらこv3の文章生成 修正

kuromoji.jsには学習器がなく、新しい単語を覚えさせて形態素解析に反映させることが現状できない。よって分かち書き、品詞付与は既存辞書に強く依存し、その精度が一番のネックになる。

品詞基準のN-POSはその影響をガッツリ受けてしまい、今の形態素解析ではまともに使えないことがわかってきたので、別の文章生成を作った

  1. N-gramで文章生成(この時、品詞情報も持たせておく)
  2. 出来上がった{ 単語, 品詞 }の配列の各要素に対して、品詞基準で確率的に単語を入れ替える

これでも品詞を扱う以上、学習器がないことによる精度の低下(というよりドメイン適応の出来なさ)の影響は受けるのだけど、一度N-gramで作っている文章に対する確率的な置換であればそこそこにbotらしい微妙に狂った文章になって逆に良い。

というわけでしばらくこれでいく。