本文へジャンプ

2突破口を開いた機械学習

「限界を乗り越える次のアプローチ」

言語構造からせまる手法と統計的手法は背反ではない。両者をうまく組み合わせて精度を飛躍させる次の手段とは何か?

では、辻井先生が考えるアプローチはどのようなものですか?

言語の理論に基づく手法と統計手法は、決して背反な話ではありません。僕らのアプローチは、まず普遍的な言語の構造を骨格にして、それにうまく確率モデルを採り入れようというものです。

言語の解釈に関与する情報の種類や構造の単位(単語、句、節など)は言語学の理論が規定し、それを処理するアルゴリズムは計算機科学的な理論が、また文に対する可能な解釈のなかでどれがもっともらしいかは確率モデルが決める。そんな役割分担を考えています。

「もっともらしさ」は、どうやって判断するのでしょう?

なかなか難しいんですよ。「もっともらしさ」は、さまざまな要因を統合的にみる必要がありますし、非常に全体的(Holistic)なプロセスですから。

たとえば、統語的な見地から文中の単語がどの単語と直接結びついているかを評価することも、そのひとつです。主語と動詞の関係、形容詞とそれによって修飾される名詞の関係には、何通りもの可能性が考えられますが、単語の並びのなかでも非常に離れている単語どうしは直接結び付く可能性は少ないとか、ある性質をもった句や節を飛び越して2つの単語が関係することは少ないといったことは考慮できます。

けれども、いちばん「もっともらしさ」に寄与するのは意味的な要因です。これをどのようにモデル化するかが、人間の判断に近づけるポイントとなるでしょう。

たとえば、「プール」と「泳ぐ」という2つの単語は、「プール」と「見る」よりも、意味的により緊密な関係があります。もし「プール」が「見る」と「泳ぐ」のいずれかと直接関係しているとすれば、「泳ぐ」と結び付けるほうが「もっともらしい」ということになるでしょう。

実は、このような意味的なもっともらしさも、大きなテキストデータから計算できます。意味の世界で強い関係をもつ2つの単語は、単なる偶然以上の頻度で同じ文やパラグラフ内に出てきます。こういう結び付きの強さも使って文の構造を決定していけば、より「もっともらしい」解釈ができるようになります。

このように、いちばんもっともらしい解釈は、文中の2つの単語の距離、2つの単語の間に介在する特別な句や節、2つの単語の意味的な結び付きといった種類の違う情報を、それぞれの寄与度を勘案しながら総合して選ぶことになります。

そこに、統計的な手法が活きてくるわけですね?

それは、離散的な規則では扱えません。確率モデルのような、それぞれの要因に寄与度に応じた連続的な重みを与える手だてがいります。この重みに相当するものを大きなお手本データから推定しておくこと、すなわち確率パラメータの推定が必要になってくるわけです。

僕は、確率パラメータの学習に言語の理論を採り入れたり、理論の骨となる要素技術に確率モデルを採り入れるような技術を蓄えてから、機械翻訳に進みたいんです。これまでの統計的手法による機械翻訳では、言語的な構造が何も付いていないパラレルコーパスだけから翻訳の確率モデルを作ってきました。次のステップでは、それ以上のことができると思っています。

翻訳に、入力文の構造や文の意味が関与していることは明らかです。だから僕は、パラレルコーパス中のそれぞれの文に構造を与えて、それを元に2つの言語の翻訳関係をとらえる翻訳の確率モデルを作るべきだと思っています。ちょっとオーソドックスに聞こえるかもしれないけれど、やはり言語の構造や意味を避けて通る現在の統計的手法による翻訳には、限界があるでしょう。

いまの統計的な機械翻訳は、モデルの基本を変えずにチューニングによって小刻みに精度を上げている状況です。やはりここで、精度が一気に10パーセント上がるくらいの質的な転換を起こしたいじゃない。

ページトップへ戻る