目的

対象となる文書の統語論的正確性を判定し、その誤りを検出する。検出された誤りは、1つの文書に複数孫座している可能性がある。判定する単位は、文書を文脈に分解し、個々の文脈の形態素分析と句構造(ラティス構造)において、選択されたビタビ経路の構成が、結果的にどうなのかを判断することである。

実施環境

形態素解析と句構造解析は同時に行いうが、ここまでは、 JUMAN++とKNPによって高精度で解析されるので、その結果を信頼することとする。しかし、その結果の在り方が、そもそも統語的に正しいかは別の方法で行わなければならない。

AIによる文法チェックの概要

形態素解析結果を成分として、その構造が日本語的に正しいかどうかは、統語論的正確性と言うことになる。そのため方法としては、既に大量の添削が完了した文書の統語構造を学習し、その学習結果に対して、新たに作成された添削前の文書が正しいかどうかを判断することが考えられる。

実験の手順

句構造解析

まず形態素解析を行い、その結果を句構造解析(係り受け解析)しデータを収集する。次に点予測による係り受け解析器として、品詞相互間の関係の推定を行う。つまり、係り先と係り受けの関係の推定を対数双線形モデルを利用してスコアリングする。

固有名詞の記号化

その場合、弊害となるのが、固有名詞の変化である。従って固有名詞は、特定の用語(記号的)に統一して、統語的な並びのみに着目して対応する。

文脈表現の判定

文節と品詞の係り受け関係のパタンを生成し、文節と品詞を文脈の成分として、その正しさを判定する。その際、前者のエラーは品詞の並び替えなので、自動補正が可能になると思われる。後者は、単語表現の問題なので注意を喚起する意味でエラーログを表示する。

補足

句構造解析結果のパタン化

句構造とは、文節(日本語に特有の文法カテゴリで、一般的には接頭辞、自立語、接尾辞又は付属語の並びのセット)と言う1つ又は複数の品詞のセットで、句を構成する最小成分である。句構造解析は、句読点までの文字の連鎖である文脈(ステートメント)の内部を、統語論的に構文解釈することである。何を学習し、それをどのように活用し、結果の期待値は何かを考えることがモデル化である。

.png

ロボペンによる文法チェック