[辻井研助手さんインタビュー]
お話: 鳥澤健太郎助手
(1996年に収録)
Q この研究室の目指しているところは何ですか?

我々のやっているものは 計算言語学 というもので、言語学をある意味でもっ とformal にしたものなんです。

我々の研究の目的には、大きく2つあると個人的に考えていて、

  1. 我々が日常使っている日本語だとか英語といった自然言語が扱えるような 役に立つソフト、たとえば、機械翻訳であるとか、大量の文章からの要約がお こなえるようなプログラムを開発すること、あるいはそれを可能にするアイディ ア、基礎技術を考えること。
  2. 自然言語という一つの「現象」の性質をきちんと把握するあるいは分析す るとかいうことです。たとえば聞いてておかしいと思う文と、聞いて分かる文 があるわけですよね。その差を何らかの方法で記述するというのがしたいわけ です。
2番目と大きく関係して、計算機をやってる人が自然言語を扱う場合には、い ろいろな考え方があると思うんだけれども、そのうちの一つの考え方は、

「自然言語の文法的な性質というのは、心理学とか難しいところを考えなくて も、形式的に記述できる」

という仮説をおいて仕事をすすめようというものです。(大変大雑把ないい方 で偉い先生たちには怒られてしまうかも知れませんが、最初にこれをいいだし た人はChomskyという御仁だったようです。)で、私なんかもこれに近い考え 方で仕事してます。ただ、本当に文法的な性質だけに話しを限ってしまうと機 械翻訳なんかとてもじゃないけど不可能だという話しになってしまうので、あ る程度、「意味」にかんすることもやります。ただし、そもそも、「意味」と いう概念は曲者で、良く分からんシロモノなわけです。

自然言語の文の意味を論理式で表現しようとか、頑張っている人たちがいるわ けだけれども、これもたとえば、バリバリの文科系の人々に見せたりすれば、 「それは違う」とか、「これとこれとはニュアンスが全然ちがう」とかひとこ とで片付けられてしまったりするわけです。かといって、そういう人々が計算 機にのっかるような「意味」を提供してくれるかというと全然そういうことは ないわけですね。まあ、文化系のひとびとでなくても、話しをしていて、この 単語の「意味」はなにかときっちり合意をとろうとすると、大抵話しがおわら なくなりますねえ。

この辺が良く自然言語処理をやってますというと誤解をうける原因になります が、結局、「「意味」とはなにか」などという大問題に真剣につき合ってると ただただ年をとるだけでわたし個人にとっては面白いことはおきない、したがっ て、「何かある目的を達成するためのプログラムを書くときに必要な限りにお いての「意味的区別」ができる程度の「意味」さえわかっていれば良い。」と いうのが私の考えです。(哲学なんかやってる人にはおこられるかもしれませ んが。)たとえば、機械翻訳を行なう時に、日本語の良く似た文AとBをA'とB' という大変異なった英語の二つの文に訳し分けたいというような場合があるわ けですが、その訳し分けができる程度の「意味の差」がAとBをそれぞれ解析し た時にでてくればいいという考え方です。でこういうことをやる時に、論理式 なんていうのは、非常に便利な道具なわけで、「この文の意味はまさにこれこ れの論理式だ。」みたいなことをいわず、「この文とこの文はこのプログラム で論理式に変換すると、同じ論理式で表現されるから、「大体おんなじ」よう なことを意味するのでしょう。」ぐらいの片肘張らない態度がいいのではない かとおもってます。その程度のいい加減さでも役に立つことはあるわけですか ら。まあ、これもとことん突き詰めていけば、十分わけの分からない話しにな るわけですが、それでも、禅問答みたいな真似をするより、よっぽど実りがお おいと私個人はおもってます。

でまあ、あともう一つ、この研究室でやってる研究の特徴をいうと、やはり、 頭の中で考えるだけではなくて、実際に最近出回ってるCDROMなどに入ってい る「実世界の文章」をガンガン解析する、あるいは、そういうものから、ある 種の規則性、文の解析に必要な文法規則を抽出するというようなことをやって ます。実は、ある文法の形式がそういう「生の入力」から学習できるか、でき ないかというのは、昔から大問題なんです。というのも、人間の子どもは親が しゃべってるのを聞いて勝手に言語を学習してしまうわけで、ある自然言語に 関する文法理論がそういう「学習」をサポートしてないと片手落ちだといわれ てしまうことになります。で、むかし、さっきでたChomskyという人なんかは そういうことを考慮にいれて文法に関する理論をつくってました。(すごく難 しい問題ですけどね。)また、この「学習」には、計算機上での実現に絡んだ 側面もあります。例えば、これは実際に機械翻訳のプログラムをメーカーで作っ てた人に聞いた話しですが、翻訳をやらせようとすると数千個以上の規則が必 要になる。で、それらの規則は相互作用をしますから、ある文の翻訳がまずい からといって、関係するルールを書き換えると、これまた、全然関係のない文 の翻訳が駄目になる。それの繰り返しを延々とやって製品を作るという「日本 残酷物語」をやって実用的な製品を作ってたというんですが、できれば、21 世紀の日本でそれをやるには忍びないと、いうので、勝手に学習してくれるよ うなプログラムがあればいいなあというわけです。

私なんかがやりたいのは、そういう「学習」をサポートしつつ、ちゃんと計算 機にのり、解析が素早くできて、なおかつ、実際に役に立つ文法の枠組(結局 プログラミング言語みたいなものになるのですが、)をつくりたいなとおもっ てます。

Q それを実現するための研究室でのプロジェクトにはどんなものがあるのでしょうか?

まず、慣習として、それをメインでやってる学生の名前がプロジェクトに付け られるようになっていて、現在進行中のプロジェクトは、私がやってるHPSG用 パーザ、それからそれを巨大なな並列計算機で動かせるようにする二宮並列 HPSGパーザ、あと、光石確率付きHPSGパーザ、こいつは、統計的手法を使って 学習をサポートしようというのが最終的なゴールです。 あと、森脇アライン メント、これは、雑誌の何とかかんとか英語版と何とかかんとか日本語版をハー ドディスク上において、これらの間に現れる翻訳の関係にある単語対を見つけ ようという話しです。普通の英和事典なんかでは、機械翻訳でこなれた訳を出 力させるのには、不十分ですから。そいつをその辺にあるテキストから自動的 に抽出しようという話しになるわけです。野畑カルテというのもあります。野 畑カルテというのは、電子化された医療用カルテからなんらかの情報を抽出し、 病状の経過などの情報を得られるようにするというものです。将来的にはこれ らの情報をデータベース化する事を考えています。また、日本語のある程度網 羅的な文法をHPSGで書こうというのがあって、戸次文法と呼ばれてるプロジェ クトもあります。

(下図はHPSGで使われる feature structure と呼ばれるもの(?))

Q そのHPSGパーザというものを分りやすく言うとどのようなものなのでしょうか?

HPSG とは、文法の記述形式でひとことで言うと論理型プログラミング言語み たいなものです。(パーザーというのは、文法を使って文を解析するプログラ ムのこと。)

たとえば、「ゆっくりと話す」というのは正しい表現であるけども、「ゆっく りと花」というのは間違いである、つまり「ゆっくりと」という副詞は動詞に は付くけど、名詞にはつかないという規則があるわけです。そういう規則を HPSGのフォーマットに従って書いてやると、文の解析ができるわけ。

いままでの言語学っていうのは、「これこれという規則の集合」があって、そ いつらを適応してやるとこの文からは「これこれという構造」がでてくると頭 の中でやってたわけだけれども、我々はその辺を計算機にやらせようというこ とになるわけです。となると、面白いことに話しが多少変わってきて、例えば、 言語学者が論文書く時には、頭の中であっさり数分で解析できてたものが、計 算機にやらせると数時間かかったりするわけです。(これは、計算機が基本的 に試行錯誤を繰り返さざるを得ないというのが大きな理由なわけですが、)で、 それではあんまりなので、どうしたら早く解析ができるかということを考えた りするわけ。でいろいろ考えた挙げ句に、普通のプログラミング言語をコンパ イルして早くするのに良く似たことを文法規則に適用してやったりすることに なります。

また、計算機に載せる、つまりそういうプログラムを書くという時点で普通の 言語学者が余り考えなかったような細かい点まで考えざるおえなくなる。つま り、我々が一度ある言語理論、例えば、HPSGをプログラムとして実現すれば、 その副作用として、あまり言語学者が注意を払わなかったようなことまで明ら かになるわけです。また、一度プログラムが出来上がれば、そいつで新聞記事 なんかを解析してみて、その言語理論あるいは、そのプログラムのいい悪いが 実際にチェックできるわけです。そういった意味でタフな仕事だけれども、や りがいは大きいと思います。

で、もう一つ我々がやりたいのは、新聞記事か何かに、新しい、たとえば今は やりの「超」という言葉が出て来たときに、その文章を解析して「超」という のは「しろい」というのにはつくけども「花」にはつかない、そういう規則を 全部人手で書くというのは、知的作業とはいえないし、「超」みたいな、あた らしい表現がでてきたときにそういうものをいちいち書くなんてことが、やっ てできる話しかどうかわからない、で、プログラムが勝手にCDROMなんかにで てる文からそういう規則を自動的に認識できるようにしたい。そういう目的に HPSG が使えると考えてます。統計処理なんかとくみあわせることになるかも しれないけど。

Q この研究室の生い立ちを教えて下さい。

辻井先生は、英国のマンチェスターというところにある大学で教えてたんだけ ど、そこに鳥澤が留学していて、去年の9月に二人とも帰ってきた。だから、 まだ研究室ができて1年たってない。

Q この研究室ならではのものは何かありますか?

ジュータンが敷かれた新しくて、眺めのいいオフィス。辻井研グルメツアー (外国にいった時に高級レストランにいっても恥をかかないようにという動機 ではじめられた。)

Q 将来、高校生が来たらこんなことができるよ、というものがありましたら。

最新の設備を使って、機械翻訳システムが作れる。

戸次: でも、高校生が来る頃にはもう機械翻訳システムはできてるから。

鳥澤: 本当ですかぁ?

戸次: どんな英語や日本語を持ってきてもスッと翻訳してくれるから。

鳥澤: 将来的には音声認識とかもやりたいね。何か喋ると、英語で返してくれるとか。

Q どういう人に来て欲しい/来て欲しくない というのはありますか?

暗い奴はいやですね。きらりとひかるやつならいいですが、(笑)

Q この研究室で対外的な成果というものはありますか?

辻井先生のことで言うと、辻井先生がメーカーで作ってる機械翻訳のほとんど の大元を開発したようです。

あと、自分のことでいうとHPSG って元々言語学屋さんばっかりが研究してい て、そこでコンピュータサイエンス的な観点を持ちこむことによって例えばパー ザの速度が格段に速くなったとかいうことはあります。これから実用チェック をいろいろやって、いずれはフリーソフトウェアにしようかな、と。であとは、 人が使える文法なんかを実際に電子化されたテキストからどんどん生成あるい は抽出して、フリーにしたいとおもってます。まあ、この話しが実現するかど うかはこれからの研究次第だけど。

Q では、決めの一言をお願いします。

あんまり、教養時代やら、高校時代にパソコンで遊んでばかりいても、研究す る上ではプラスにはならないとおもいます。某メーカーのパソコンのOSと別の メーカーのOSを比較して、どっちがえらいとかいうことばかり言ってたり、な ぜか、その上でなにもしないのに、ひたすら、新しいOSがでると買ってきてイ ンストールばかりしてる人が時々いますが、そんなことしたところで、独自の アイディアがでてくるわけではないし。むしろ、コンピューターなど下手に触 らずに、旅行しまくるとか、Chomskyは全部読んだとか、フランス語しゃべれ てデリダにはまってるとか、数学みっちり勉強したとかいう学生のほうが、僕 個人としてはつき合いやすいし、まあぜひ研究室に来て貰いたいという感じが してます。あと、英語は勉強しておいて下さいね。研究室にきたら、英語の論 文の山をどさっとわたされることになるだろうし。外国人と飲みにいかされる こともあるだろうし。英語で喋ってて、座が白けるときほど恐ろしいことはそ うそうないでしょう。


戻る