今年2月のクラブハウスブーム以降、にわかにネットの「音声」に注目が集まっている。GAFA(グーグル、アップル、フェイスブック、アマゾン)はもちろん、音楽配信大手のスポティファイや動画配信大手のネットフリックス、ツイッターも音声市場に参入している背景には何があるのか。日本のボイステック(音声系IT)ベンチャーの4人が語り合った――。

※本稿は、緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)の一部を再編集したものです。

女の子の耳にワイヤレスイヤホン
写真=iStock.com/yunava1
※写真はイメージです

機械が人の言葉を理解し始めた

【緒方】「なぜ今、ボイステックが『きて』いるんでしょうか」と最近よく聞かれます。

Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より

【金子】音声合成や音声認識の研究は、何十年も前からいろんな企業がやってきました。それが、ディープラーニング(深層学習)が出てきたおかげで、一気に精度が上がったんです。

音声合成、つまり機械に言葉をしゃべらせる方は、「最低限何を言っているかはわかる」というレベルでもそれなりに用途はあったんです。例えば、カーナビの「次の信号を左折です」といった音声は、「ちょっと不自然だけど言っていることはわかる」というレベルでも使ってもらえます。

でもスマートスピーカーや、iPhoneのSiriなどで注目された、人が話しかける言葉を機械が認識する音声認識の技術、つまり音声を理解する方は、精度70%くらいだと、ほぼ使えないんですよ。70%ってどのくらいかというと、2、3回に1回は認識されずに「言ってることがわかりません」と返されてしまう感じ。それが2、3回起こると、もう使うのが嫌になっちゃうじゃないですか。

それがディープラーニングによって、ここ数年で精度が上がって、条件によっては95%以上になった。そうなってくると「使える」レベルになり、一気に広まりました。

【八木】長文はもう、タイピングする気がしないですね。Googleドキュメントを開いて音声入力してます。(2020年の)12月に書籍を出したんですが、80%くらいはしゃべって音声入力で書きました。600文字くらいの文章なら、1、2分でしゃべれちゃうので。

【緒方】僕もだいたい音声入力ですね。社内の人は、僕が声で書いているのを知ってるから、多少の誤変換は見逃してくれる(笑)。

大手が本気になり始めた

【八木】私が携わる広告やメディアの分野で音声が盛り上がっているのは、「技術的な革新があったから」というよりも、「本気になったプレイヤーが増えたから」だという感じがしています。例えばグーグルはユーチューブで音声広告を始めましたし、アマゾンや音楽配信のスポティファイがポッドキャストに参入してきたのはインパクトがありました。

広告技術は、これまで動画やバナーでやっていたことを、音声でもやっているだけだったりするんです。これまでなおざりにされてきた音声に注目が集まってきて、結果的に、昔から使われてきた技術が音声に応用されるようになったという印象です。