今年2月のクラブハウスブーム以降、にわかにネットの「音声」に注目が集まっている。GAFA(グーグル、アップル、フェイスブック、アマゾン)はもちろん、音楽配信大手のスポティファイや動画配信大手のネットフリックス、ツイッターも音声市場に参入している背景には何があるのか。日本のボイステック(音声系IT)ベンチャーの4人が語り合った――。

※本稿は、緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)の一部を再編集したものです。

女の子の耳にワイヤレスイヤホン
写真=iStock.com/yunava1
※写真はイメージです

機械が人の言葉を理解し始めた

【緒方】「なぜ今、ボイステックが『きて』いるんでしょうか」と最近よく聞かれます。

Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より

【金子】音声合成や音声認識の研究は、何十年も前からいろんな企業がやってきました。それが、ディープラーニング(深層学習)が出てきたおかげで、一気に精度が上がったんです。

音声合成、つまり機械に言葉をしゃべらせる方は、「最低限何を言っているかはわかる」というレベルでもそれなりに用途はあったんです。例えば、カーナビの「次の信号を左折です」といった音声は、「ちょっと不自然だけど言っていることはわかる」というレベルでも使ってもらえます。

でもスマートスピーカーや、iPhoneのSiriなどで注目された、人が話しかける言葉を機械が認識する音声認識の技術、つまり音声を理解する方は、精度70%くらいだと、ほぼ使えないんですよ。70%ってどのくらいかというと、2、3回に1回は認識されずに「言ってることがわかりません」と返されてしまう感じ。それが2、3回起こると、もう使うのが嫌になっちゃうじゃないですか。

それがディープラーニングによって、ここ数年で精度が上がって、条件によっては95%以上になった。そうなってくると「使える」レベルになり、一気に広まりました。

【八木】長文はもう、タイピングする気がしないですね。Googleドキュメントを開いて音声入力してます。(2020年の)12月に書籍を出したんですが、80%くらいはしゃべって音声入力で書きました。600文字くらいの文章なら、1、2分でしゃべれちゃうので。

【緒方】僕もだいたい音声入力ですね。社内の人は、僕が声で書いているのを知ってるから、多少の誤変換は見逃してくれる(笑)。

大手が本気になり始めた

【八木】私が携わる広告やメディアの分野で音声が盛り上がっているのは、「技術的な革新があったから」というよりも、「本気になったプレイヤーが増えたから」だという感じがしています。例えばグーグルはユーチューブで音声広告を始めましたし、アマゾンや音楽配信のスポティファイがポッドキャストに参入してきたのはインパクトがありました。

広告技術は、これまで動画やバナーでやっていたことを、音声でもやっているだけだったりするんです。これまでなおざりにされてきた音声に注目が集まってきて、結果的に、昔から使われてきた技術が音声に応用されるようになったという印象です。

GAFAが音声に着目し始めたワケ

【八木】ちなみに特にGAFAなどの大手プラットフォーマーに関して、なぜ音声に着目し始めているかというと、端的に言えばお金になるからだと思います。市場がすごい勢いで成長しているので、参入せざるを得ないという状態というか。その辺の感覚は、日本ではあまりわからないかもしれませんが、グローバルでは「先に取られると負ける」という切迫した空気になっている。それで、いろんなプレイヤーが音声に参入してきているという感じが強いです。

デジタル音声広告を手掛けるオトナル 代表取締役の八木太亮さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
デジタル音声広告を手掛けるオトナル 代表取締役の八木太亮さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より

さかのぼると、ポッドキャストブームがイノベーションのきっかけになったように思います。2014年に、初めてポッドキャストの番組が、放送のピュリッツァー賞と言われているピーボディ賞を受賞したんですが、音声コンテンツの充実を象徴するできごとでした。

2016年にはワイヤレスイヤホンのAirPodsが出てきた。コンテンツとハードウェアが揃ってくると、メディアとして価値が出てきたということで、これまで動画やバナーばかり見ていた広告の人たちが、音声に参入してきたんだと思いますね。

そういえば、ネットフリックスもオーディオコンテンツをやると言っているんですが、あの会社のコンテンツ制作費って年間1.8兆円とかなんですよ。もはや国の予算レベル。

【緒方】ただ、映像と違って、音声はお金を使うほどいいものができるというものでもないと思います。

【八木】確かにそうですね。

【緒方】人を抱える方が強いので、どれだけ魅力ある人を抱えられるかが勝負なんじゃないかと。

【宮坂】今スポティファイも完全にその方向ですよね。人気がある人を抱えている企業を買収していますし。

【八木】オバマ元大統領と専属契約したりしてますね。

家ではスマートスピーカー、外ではワイヤレスイヤホン

【宮坂】僕は、デバイスの視点って重要だと思うんですよね。なんでインスタグラムのようなビジュアルメディアが広がったかというと、当然、スマホにカメラがついていたからですよね。音声を何で聴くのか、何で話すのか。それはここ数年ですごく進化している。

AirPodsに代表される、左右独立型でワイヤレスの「トゥルーワイヤレスイヤホン」(TWE)も、ここ数年で急速に進化し、普及しました。僕らは2016年に最初のBONXのイヤホンを出したんですが、その当時はほとんどなかった。それが今では、むしろコードがついたイヤホンをしている人の方が少ないんじゃないかっていうくらいに一気に普及した。

スマートスピーカーは今、テック界隈の人は当たり前に使っていますが、一般の家庭はこれからです。今、急速に普及しているというフェーズです。

家ではスマートスピーカー、外ではTWEと、インドアでもアウトドアでも、音声で常時インターネットにアクセスできる環境が生まれた。それが、ボイステックの波が来るうえでの土台になっていると思います。

【八木】僕も同じ意見です。

「耳に“小さなコンピューター”が挿さっている」生活

【宮坂】僕は中でも、イヤホンの方に注目しています。みんなの耳に、常にちっちゃいコンピューターが入っている状態になる。通勤途中だけでなく、仕事をしているときも遊んでいるときも常にイヤホンをつけているのが普通になるでしょう。そのときの新しいコミュニケーションとか会話のあり方をBONXで作りたいと僕らは考えています。

緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)
緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)

【八木】聴覚の拡張って、もはや「人間の拡張」なんじゃないかと思うんですよね。視覚の拡張ではVR(仮想現実)がありますが、あのゴーグルはずっとつけているわけにはいかない。でもワイヤレスイヤホンって、電池さえ切れなければ一日中つけていられるんじゃないかと思うんです。」

この間僕、会社を出てワイヤレスイヤホンのケースを開いたら中身がなくて、「なくした!」って思って焦ったんですけど、耳に挿さったままでした(笑)。

【緒方】めがねを頭にのっけたままで「めがねがない、めがねはどこ」って探すみたいな(笑)。

【八木】そうなんですよ。もう、めがねと同じで、人体の一部に限りなく近いなと。コエステさんのような技術があれば、自分の代わりに声を出してくれるようになりますし。

しゃべることって、とても原始的なコミュニケーションです。今起きている変化は、人間の感覚を拡張する感じがします。だから音声の領域ってワクワクするんですよね。

居酒屋ではイヤホンをしたまま会話

【緒方】2019年にAirPods Proが出たときに、ノイズキャンセリング機能だけでなく、イヤホンの外の音も聞こえるようにしてきたのにはびっくりしました。イヤホンが聞かせる音の世界を大事にしつつ、さらにイヤホンの外の音声を重ねてくるという思想です。聴覚が拡張したというか、耳が外に飛び出たような感じだなと思って。

【宮坂】オーディオ・トランスペアレンシー(audio transparency)ですね。「外部音取り込みモード」などと呼ばれています。アップルは、こういう機能を搭載することで、イヤホンを常に耳につけていてほしいのだというのがわかります。

【八木】音が「抜ける」技術ですね。

【金子】音が「抜ける」ってどういうことですか?

【八木】イヤホンをしていても、周囲の音声が、限りなく自然に、イヤホンをしていない耳で聞いているように聞こえるというものです。

【宮坂】AirPods Proのオーディオ・トランスペアレンシーの技術は、本当にすごいんですよ。

何がすごいかというと、「定位感」があるんです。どこから聞こえてくるかがわかる。

一度マイクで収音して、それをイヤホンの中で聞かせるだけだと、どの方向から聞こえているかがわからなくなるんです。それって、ものすごく気持ちが悪い。アップルは、定位感を保ったままイヤホンの中で鳴らしています。それを、ほとんどレイテンシー(遅延)なく実現しているというのは、めちゃくちゃすごいことなんです。

この技術がこの先どこに向かうかと言うと、例えば騒がしいレストランや居酒屋などで、自分の目の前にいる人の声だけを強調して聞かせられるようになります。

居酒屋で友達や家族と一緒に同じテーブルを囲んでご飯を食べながら話しているんだけど、イヤホンをつけているという状態ってちょっと不思議な感じがしますけど、そういう機能があるイヤホンなら、つけている方が快適に会話ができるわけです。