その他  グローバルエコノミー  2012.08.29

水野貴之インタビュー ~CIGS Workshop「膨大なテキストから読み解く経済・社会・政治」~

7月4日に開催されたCIGS Workshop 「膨大なテキストから読み解く経済・社会・政治」 の発表者、水野貴之主任研究員にその研究の背景についてインタビューをおこなった。

ご関心がある方は、こちらのCIGS Workshop 開催報告をご覧ください。



【聞き手】 水野さんは膨大なテキストデータを数値化して経済分析するということをやっているそうですが、内容を具体的に説明して下さい。

120829_mizuno_interview1.jpg

【水野】多くの経済分析は、消費者物価とか株価とか、主に数値化されたデータをもとに行われています。しかし、世の中には、数値化された情報よりももっと多くの数値化されていない情報が存在します。そうした数値化されていない、主としてテキストの形で存在しているデータから情報を引き出して、それを分析すれば、より詳細かつ正確に経済や市場の動向を把握できるのではないかと考えたのです。近年は自然言語処理技術が発達しているので、それを使って膨大なテキストデータから雑多な情報を分離し、主要な情報を引き出すことができます。そうして抽出した主要な情報を数値化された情報と照らし合せて解析することによって、例えば物価や株価の変動を生み出す人々の経済情報に対する反応を読み取ることができます。



【聞き手】自然言語処理とはどういう方法ですか?

【水野】人はニュースを聞いたり、新聞記事をみたりして、情報を理解します。例えば、ある文章に「給与」や「失業率」という語句が出現すれば、この文章は景気に関連しているのだと気が付きます。さらに、「下がった」や「回復」、「低下」などの変化を表す語句があれば、景気がどのように変化したのかを想像します。文章の中の語句と語句の間には「共起関係」というものがあります。例えば、「景気」が含まれている文章の中では、「雇用」や「設備投資」などの語句が頻繁に使われますが、このように一緒に使われやすいことを「共起関係」と言います。そして、一緒に使われる割合が大きいほど「共起関係が強い」とされます。自然言語処理では、この「共起関係の強さ」を用いて、文章や語句に「景気」、「悪い」、「良い」といったタグ付けをします。そうすることで、様々な景気に関する表現をひとつにまとめあげて、全体として景気がどちらの方向に向っているのかを知ることができるようになります。



【聞き手】今回使ったテキストデータは何ですか?それで何が分かるようになるのでしょうか?

【水野】データは、2003年から2011年の間に、トムソンロイター社が投資家向けに配信した全てのニュース約1億件です。金融市場での取引判断に用いることのできる情報は公開されたものに限られますので、これらのニュースで、主要な金融市場に関連するほぼ全ての情報を網羅することができます。今回は株式市場との関連を調べるために、主にニュースの中に出てくる「企業名」に注目しました。これまでの分析で、各株式の取引量とニュースの中に出てくる対応する「企業名」の数には相関があることが分っています。研究はまだ途中の段階ですが、どのような情報が流れるときにどの企業の取引量が増減するのかを、「企業名」と共起関係のある語句を調べることにより明らかにしようとしています。これが明らかになれば、我々は将来の経済シナリオ毎に想定される株式市場の反応をある程度予測して、多くの銘柄が連動して激しく変動するような金融リスクに備えることができます。今回のワークショップでは、情報を介した銘柄間の取引量の連動に関する研究の一部を紹介しました。



【聞き手】テキストデータから経済分析に資する情報が得られるのかという疑問がありますが?

【水野】ワークショップで発表したときも、人は必ずしも文字になっている情報だけではなく、文字になっていない情報も使って分析や判断をしているので、テキストだけから得られる情報では結果に偏りが出るのではないかという批判がありました。確かに、テキストで網羅的に情報を把握できる経済現象は多くはないかもしれません、そのような現象では、数値や映像、ヒアリング調査、模擬実験等も用いてテキストに不足している情報を複合的に集める必要があります。ただ、金融市場に限って言えば、前述のとおり公表された情報に基づいてのみ取引が可能なため、投資家向けのニュースのテキストデータを用いれば金融市場の情報を網羅することができると考えています。



【聞き手】こういう分析から何かの普遍的な原理が得られたり、将来を予測できたりするようになるのでしょうか?

120829_mizuno_interview2.jpg

【水野】なります。そのために注目すべきポイントは2つあります。ひとつは事象の「定常性」です。「定常性」とは、一定の期間を区切って何回も起きる事象を調べたときに、その発生頻度がいつもほぼ同じであることを言います。「定常性」がある場合には、将来も同様な事象が発生する確率が極めて高く、分析結果に普遍性を見出すことができます。もう一つは「スケーリング則」です。例えば、リーマンショックのような大きな事件はめったに起きないので、そこに普遍性はないと思われるかもしれません。しかし、地震と同じように、実は常に起きている小さな経済ショックからリーマンショックのような大きな経済ショックまで、それぞれのショックの多くの特徴は、規模に則して連続的に変化します。この特徴と規模の間の関係(スケーリング則)を明らかにすることで、小さなショックから大きなショックを予知したり、大きなショックを予防したりすることができるようになると思います。これら「定常性」と「スケーリング則」を確認するためには、大小様々な事象を分析する必要があり、そこで材料として膨大なテキストデータの登場となるわけです。


ご関心がある方は、こちらのCIGS Workshop 開催報告をご覧ください。