らこらこブログ

唐揚げとアニメとプログラミングが大好きです

自然言語処理

メカらこv3の文章生成 修正

kuromoji.jsには学習器がなく、新しい単語を覚えさせて形態素解析に反映させることが現状できない。よって分かち書き、品詞付与は既存辞書に強く依存し、その精度が一番のネックになる。 品詞基準のN-POSはその影響をガッツリ受けてしまい、今の形態素解析で…

メカらこv3の文章生成草案1

文章生成 N-gramモデルをベースにする 想定されるデータモデル(「今日は雨です」) { w1: "今日", w2: "は", w3: "雨" }, { w1: "は", w2: "雨", w3: "です" } 確率の推定 w3がw2, w1から生起する確率 「w1,w2,w3と並んだ回数」と「w1,w2と並んだ数」の比によ…

最後まで書いた後でとても実装する気が起きなくなった

PCFGを使って形態素解析器の学習データを作る計画 ツイッターとかネット上のテキストとか、とてもじゃないけど手動でいちいち辞書追加してたら新しい単語についていけないので自動で学習させたい。品詞も自動で与えたい kuromoji.jsで「艦これって何」の形態…