「不安」だけでなく「不透明」「不確実」なども確認
さて、本題に移ろう。今回、RMeCabを用い、景気ウォッチャーによる景気判断理由集の現状/先行きのコメント(それぞれ毎月約1300コメント/約1400コメント)について、時系列(期間は2014年1月~2017年6月、、以下の図表も同期間)に沿って、使用されている単語、及びその使用頻度のデータを抽出した。ただし、MeCabは、全ての専門用語や固有名詞に完全に対応しているわけではなく、筆者に好ましくない形に単語を区切ってしまうケースもある。例えば、「マイナス金利」をMeCabにかければ、「マイナス」「金利」の二語として抽出されるし、「有機EL」は「有機」「E」「L」という形に分割されてしまう。このため、景気ウォッチャーに登場するこうした語についてはRMeCabで別途辞書登録し、筆者の意図する形で抽出されるようカスタマイズした。
その上で、抽出されたキーワードが文字通りの意図として使われているかを確認するため、複数の類義語・関連語の使用頻度との比較なども行った。例えば、将来への不安感を示す言葉としては、「不安」のほかにも、「不透明」「不確実」などの言葉が考えられる。「不安」だけでなく「不透明」「不確実」などの使用頻度もあわせて確認すれば、不安感の変化を捕捉する上で情報は補強されるだろう。
また、RMeCabで抽出されるのはあくまで単語とその使用頻度で、その単語が必ずしも肯定的に使われているかを示すわけではない。つまり、「不安」という言葉が、「不安である」という文脈で使われているか、「不安でない」という文脈で使われているかは識別できない。そのため、上述のような類義語・関連語の使用頻度などとのクロスチェックに加え、その単語がどのような文脈で使われているかを観測するために、形態素の連なりであるNグラムの使用頻度もあわせて抽出した。Nグラムとは、ある単語がどのような単語との連なりの中で使われているかを観測するもので、例えば「期待」の後に「できない」が続いた場合には、「期待―できるーない」という3語から成るNグラムが作成される(Nは形態素の数で、N=3の場合、三つの語から成る連なりが抽出される)。「期待」という語の使用頻度が増加しているときに、「期待―できるーない」というNグラムの使用頻度が同じような動きをしているのであれば、「期待」は必ずしもポジティブには使われていないことを意味する。
強気の言葉と弱気の言葉、どっちが多い?
前置きが長くなったが、それでは実際に景気ウォッチャーのコメントをテキストマイニングすると、どのような結果が得られるのか。1カ月あたりのコメント数は、現状が1300コメント前後、先行きが1400コメント前後、そこで用いられる単語の数はおおむね45000語前後である。その中には「が」「て」「に」「は」などの助詞、「。」「、」などの記号も多く含まれ、単純に使用頻度順にスクリーニングをかけると、こうした助詞や記号ばかりになってしまうが、RMeCabでは品詞情報も抽出されるため、品詞でスクリーニングすれば、こうした助詞や記号は簡単に排除できる。
しかし、名詞、動詞、形容詞などに絞っても20000語近くあるため、最終的にはエコノミストとして景気ウォッチャーのコメントを読み込んできた経験知を生かし、キーワードをいくつかのカテゴリーに分け、絞り込んだ上で、それぞれの使用頻度を時系列で観測した。(RMeCabでは、テキストの量の影響を調整し、使用頻度を標準化することもできるが、わかりやすさを求める観点からも、以下では使用単語数をベースとして分析を進める)