我々の研究室では、
自然言語(日本語、英語など)の計算論的な取り扱い、自然言語処理・理解システムの開発のための基礎的な手法の研究
を行なっています。

人間のコミュニケーションは、もちろん、図形や絵などの非言語的な媒体 を通してのものもありますが、コミュニケーション媒体としての言葉の重要性 はいうまでもありません。また、我々の思考のかなりのものが言語的なものを 媒介として行なわれていることからすると、人間の情報活動のほとんどの部分 が、何らかの形で言語と結び付いています。したがって、言語がコミュニケー ション・思考の媒体として、どのような性質を持つかを明らかにすることは、 情報科学の中心的な課題となっています。

言語による情報伝達は、表面上の単語の列がその意味(メッセージ、情報)に ある機構で結びつけられることによって達成されるわけですが、その機構とは 一体どのようなものなのか、また、意味とは何で、どのように表現できるのか を、数学的・計算機科学的な立場から定式化するのが、言語の計算論的な取り 扱いです。これは、自然言語を実際に処理できる計算機システム、たとえば、 機会翻訳システムなどを開発するときの基本的な理論を提供します。また、人 間の幼児は驚くべき速度で言語を習得していきますが、この機構を計算論的な 立場で定式化することにも、我々は興味を持っています。この機構が実現でき れば、大量にある言語データを与えるだけで、言語知識を自ら組織化するシス テムが可能になるわけで、応用の面からも画期的なことです。

昨年、辻井教授が英国から帰国されてできたもので、まだ、発足から一年足 らずしか経っていません。しかし、辻井教授と一緒に英国で研究してきた鳥澤 助手、大学院生6名が、基礎理論、応用分野で活発な研究を始めています。分 野の性質上、外国からの研究生や研究者も、頻繁に研究室に出入りし、国際的 な雰囲気が一杯です。

現在、研究室で研究されている(あるいは、研究が始まろうとしている)分野 は、次のようなものです。

1.制約ベースの文法(HPSG)のための高効率なパーザの開発

HPSG は、言語学者によって提案されている形式性の高い文法記述の枠組です。 この枠組の計算論的な性質をあきらかにし、 そのための超高速のパーザを開発しています。 この枠組のためのパーザは、米国・ヨーロッパでも開発されていますが、我々 のアイディアは、他のグループには見られないユニークなもので、予備実験 の結果、最高の速度を達成できる見通しを持っています。また、この枠組を 並列計算機で実現する研究、あるいは、「いい間違い」、「いい淀み」など の「非文法的」現象に対応させるための拡張の研究も行なっています。

2.言語データからの文法知識の自動獲得

近年、新聞などを含めた大量の文書 の CD-ROM 化が進んでいることから、それらのデータから、自動的に言語の 文法や、一般的な知識を獲得するシステムの研究が、現実に可能になってき ています。研究のアプローチには、情報理論からの統計量に基づくものと、 [1]のようなある種の、あらかじめ備えつきの機構を前提にするものとがあ ります。現在、我々の研究室では、この2つの方向からのアプローチをとり、 将来的にはその統合を考えています。

3.テキストからの情報抽出に関する研究

テキストという非定型なデータから、 整理された情報を抽出する技術は、インターネットやオフィスの電子化が広 がるにともなって、自然言語処理の応用として、非常に注目されている分野 です。現在、研究室では東大病院と協力して、お医者さんが退院した患者さ んごとに書く退院サマリというテキストを対象にして、この研究を始めてい ます。さまざまに書かれたテキストから、患者さんがどういう症状を示し、 どういう治療を受け、どういう時間経過で退院に至ったかを整理したデータ を抽出しようというものです。

4.類推による機会翻訳システム

現在、市販されている機械翻訳システムは、 過去の翻訳経験から学習することがありません。類推による機械翻訳は、過 去の翻訳経験を巨大な、組織化されたデータ・ベースを持ち、よく似た翻訳 例を探し出すことで、翻訳を実行しようという全く新しい枠組です。ただ、 これには、「良く似た文章」というものの定義や、複数の翻訳経験の、それ ぞれ一部分を取り出して組み合わせるための機構など、研究課題がたくさん 残っています。したがって、すぐに機械翻訳システムを作るというのもでは ありませんが、言語の本質の拘る基本問題が多く含まれており、この枠組の ための基礎研究を始めようと思っています。

戻る


<vu@is.s.u-tokyo.ac.jp>

Last updated on Thursday, 3 1997