本文へジャンプ

3ブートストラップの夢

「生命科学の知識を取り込む」

研究者ひとりが把握できる情報はわずかでも、その思考方法を織り込んだソフトで全体を見渡せば、創薬や治療法の発見に結び付けられる

構文的な骨組みに人の知識を組み入れるというアプローチは、その後のバイオ分野のデータマイニングに活かされているのですね?

そうです。僕は、言語の処理には言語で表現されている対象に関する知識が不可欠だという意識をもっています。そこに、生命科学分野でテキスト処理の重要性が認識され始めているという話を聞いて、これだと思いました。

それまでやってきた構文解析の技術にバイオ研究者の専門知識を取り込み、文献中の情報を彼らの知識と関係づけるという深い分析を検索技術に導入したんです。やるべきことはまだいっぱいありますが、まずは研究者の思考に寄り添うように文献をナビゲートし、彼らの研究に必要な情報がありそうな関係資料を簡単に集められるようにしました。

タンパク質はDNAによってコーディングされていますが、このタンパク質がほかのタンパク質や化学物質と相互作用していろいろな生命現象が起きます。ガンがどういうメカニズムでできるか、あるいは糖尿病にはどういう遺伝的要因・生活的要因が関連しているのか、そういったことを解明し、新たな薬剤を設計したり治療するカギが、このタンパク質間の相互作用に隠されています。

このプロジェクトに、何か切実な期待があったのでしょうね?

タンパク質は数十万種類もあり、作用にはそれらの組み合わせが関係するので、可能性のある作用は膨大です。また、2つのタンパク質は常に相互作用するわけではありません。相互作用が起きる条件が加わります。

一方、研究者のひとりひとりが自覚的な知識として把握しているのは、そのうちごく一部にすぎません。生命科学の研究を次のステージに進めるためには、生命科学者が集団としてもっている情報、すなわちすでに発表された研究論文中の情報を、明示的に組織化して必要な時に参照できるようにする必要があります。そうすれば、異なる病気でも似たようなメカニズムをもつものは何か、構造が似ているタンパク質はどういう類似の性質をもっているかといった、より総合的で抽象度の高い知見を生命科学者が発見できます。

図:文献から抽出したタンパク質の関係ネットワーク

つまり、すでに発表されているものの、個々の生命科学者が独力で把握できないほどの膨大な知見を、計算機で管理することによってタンパク質の性質をいろいろな角度で眺められるようにしたいわけですね。このためには、論文のテキスト処理技術が不可欠になります。

そこで僕らは、オントロジー―日本語に直すと存在論的な知識という大げさなものになりますが、タンパク質の機能や相互作用といったバイオ研究者の「知識」の部分をデータベースとして構築し、これを構文解析に使用したり、あるいはテキスト処理を施してオントロジーを網羅的でより完全なものにしていく技術を開発してきたのです。

ページトップへ戻る