景気動向を把握するツールの一つとして、エコノミストや投資家に重宝されているのが、内閣府が毎月発表する「景気ウォッチャー調査」(街角景気指標)だ。小売店や飲食店、タクシーなど、景気に敏感な現場で働く全国2050人の人々の景況感を集計し指数化したものだが、三井住友アセットマネジメントの渡邊誠シニアエコノミストは、指数とともに公表される回答者のコメントに着目。多量の文書をコンピューターで分析するテキストマイニングの手法を用い、どんなキーワードがよく登場するかという切り口から、より客観的な景気動向分析の可能性を探った。その結果は――。

国が集めた地域・業種ごとの「リアルな声」

経済指標を見る限り、足元の景気は堅調である。一方で、回復感がないと感じる人も少なくないようだ。実際、人々は現在の景気をどう捉えているのか。

それを捉える試みの一つとして、景気ウォッチャー調査、いわゆる街角景気指標がある。全国11の地域を対象に、家計動向、企業動向、雇用等、代表的な経済活動の動向を敏感に観察できる業種の、適当な職種の中から選定した2050人の景況実感を調査し、それらを指数化したものだが、非常に面白いのが、同時にそれら調査対象者の景気判断の理由も取りまとめている点である。1~2行程度の簡単なコメントだが、毎月、景気の現状・先行きについてそれぞれ1000を超えるコメントが公表されている。

6月の調査では、「梅雨入り後も晴天が続き、衣料品や身の回り品に加え、お中元ギフトの受注も順調に推移しており、月末からのクリアランスセールにも期待がかかる。また、インバウンド売り上げも相変わらず好調である(近畿=百貨店)」などといったコメントが寄せられている。地域、業種ごとの特徴的かつリアルな声を拾うことができ、エコノミストの間では非常に重宝されている。

2700コメント×3年6カ月分をコンピューターで分析

その一方で、現状・先行き合わせて2000を超えるコメントを毎月読み込み、街角の声を客観的に分析することは簡単な作業ではない。今回、街角の声をより客観的に分析する試みとして、「テキストマイニング」の手法を用い、景気判断についてのコメントを解析してみた。「テキストマイニング」とは、テキスト(文書)をコンピューターで探索する技術の総称であり、その典型的な手法の一つが、テキストにおける単語の使用頻度を測定し、その特徴を統計的に分析・可視化することで、テキストの背後にある有益な情報を探るというものである。

テキストから単語の使用頻度を測定するには、文章を単語に区切る技術である形態素解析が必要だ。今回は、代表的な日本語形態素解析器である「MeCab」をベースにテキストを解析するパッケージ、「RMeCab」を用い、景気ウォッチャーのコメントから頻出キーワードとその使用頻度を抽出し、分析した。

※RMeCabの使用方法については、『Rによるテキストマイニング入門』(石田基広著、森北出版)、『Rによるやさしいテキストマイニング』(小林雄一郎著、オーム社)などが詳しい。

具体例を挙げよう。「梅雨入り後も晴天が続いたため、レジャー等が堅調だった」という例文をMeCabにかけると、図表1のような結果が出力される。「梅雨入り/後/も/晴天/が/続い/た/ため/、/レジャー/等/が/堅調/だっ/た」という形で文が区切られるが、これをRMeCabにかけると、スラッシュで区切られた後の各単語の使用頻度を測定することができる(品詞などの情報も付加される)。例文では、「た」(助動詞)という語が重複しているが、「た」の使用頻度は2という形で出力される。例文では1文にとどめたが、複数の文から成る文書をまとめてRMeCabにかければ、その文書内で使われている単語全ての使用頻度が出力される。月ごとにコメントを集約してテキストファイルを作成すれば、時系列での比較も可能になるし、CSV形式で出力できるため、エクセルによる集計作業も容易だ。