本文へジャンプ

3ブートストラップの夢

「特定分野から広い分野へ」

1つの分野で獲得した小さな知識を種に、次の分野の知識を芋づる式に獲得して拡げていく。ウソだと思う?

次のねらいは何ですか?

僕の興味は、タグ付けのない普通のテキストから出発して、構造的な知識を対応付けること。人間が与えるお手本をできるだけ少なくして、計算機が独力でテキストから知識を組織化できるようにすること。そして、これまでは生命科学という分野に特化して言語と知識とを結び付ける技術を開発してきましたが、それをほかの分野にも簡単に移せるようにすることです。

実感として、僕らはテキストから言語の構造を取り出して、それを言語とは一応独立に存在する知識と結び付けられるようになってきました。これをもっと自動化したいのです。いまは、初期にかなりの基盤知識を分野オントロジーとして与えていますが、この初期オントロジーも計算機がテキストから自律的に紡ぎだせること、また極小のオントロジーから出発して人間の専門家がもつ非常に豊かなオントロジーを作っていけることを実証したいと思っています。

こんなふうに、小さな種から出発して組織化された大きな知識を獲得していくプロセスを、ブートストラップと呼んでいます。ウソのような話ですか? でも、多くの研究者がやろうっていうんです。できたら嬉しいじゃない。

その芋づる式に知識を拡げていく感じ、面白いですね。

たとえば、データマイニングとテキストマイニングとを結び付けて、神経変性の膨大な医学論文の集合や検査データを活用すれば、アルツハイマー病やパーキンソン病の発病プロセスの解明につなげられます。もちろん、計算機が独力で発病プロセスを見つけるわけではなくて、人間と計算機の共同作業になります。でも、計算機の側も単なる自動的な道具ではなくて、積極的に仮説を立てて研究者に提示していくような、そういう人間と計算機との知的な共同作業のプラットフォームを提供していきたいですね。

このような情報分析のプラットフォームは、投資市場の株の動きと新聞記事や各種のレポートのできごととの関連を分析していくのにも使えます。数値データという定量的なものとテキスト中の定性的な情報とを結び付けて、複雑な現象を分析していくという意味では、実は同じような問題です。

機械翻訳も、すこしずついろいろな言語に拡げられるのでしょうか?

僕は、人間の言葉には言語としての共通の特性があって、それは英語だろうと日本語だろうと中国語だろうと変わらない、普遍的なものだと思っています。だから、これまで英語を対象にいろんな研究をしてきたのですが、そこでの研究成果は中国語や日本語にも適用できます。そういうことを、実際に示したいのです。

自然言語処理や自然言語理解の研究には、英語・中国語・日本語といった個別の言語がもつ特異性と、それらに共通する普遍性とを明らかにする面白さ、またその2つの緊張関係の面白さを感じます。文から構造を取り出すパーザ(構文解析器)の部分は、特にそうですね。

図:文の構文を解析する。参考:英文向け構文解析器 Enju

僕らは日本人だから日本語処理技術を研究する、その結果は日本語固有の技術だから英語や中国語には適用できない、というのでは寂しい。やはり、技術としての普遍性を追求していきたいじゃないですか。
 その一方で、英語と日本語と中国語にはやっぱり明らかに違いがあります。ではその違いはどこで、何を変えなければいけないのか、それをはっきりさせたい。
 普遍性と特異性の追及を繰り返すことで、人間の言語の特質が見えてくるのだと思います。言語の根幹にある普遍性をとらえ、こういった特異性の垣根をしなやかに超えていける技術を作り出す必要があります。
 面白いと思うでしょ。もうちょっと若かったら、面白いことがまだいっぱいあるんだけど(笑)。

ページトップへ戻る