テープ起こしを音声入力でラクにする

――実は私も音声入力で原稿を1本書いてみたのですが、音声認識エンジンの性能は期待以上に上がっており、むしろインターフェースに改善の必要を感じます。例えば私はAndroidのスマートフォンにATOKを入れていますが、これだと音声入力ができない。Google日本語入力に変更しても、音声認識ボタンは小さいし、ブツブツ途中で途切れてしまうしで、音声入力が非常にしにくいです。音声認識の性能の高さが生かせていない。

【野口】まったくその通りです。Siriが“Siri”という自分の名前さえ正しく変換できなかったり、iPhoneの音声入力ではどうやっても「いうこと」を「言う事」と打ち出したりするのが気になっても、辞書を訓練することもできない。一方Googleは単語の音声認識はほとんど間違えず正確なのですが、ある程度の長さの文章を書くにはおっしゃる通り向きません。そこで、SiriとAndroidの入力を場合によって使い分けたらよいと思います。

AppleもGoogleも、もっと音声入力で文章を入力するという発想が欲しいですね。Appleのマイク付きイヤフォンも使ってみましたけれど、私は実のところマイクしか要りません。イヤフォンは煩わしいだけです。

――私の業務のお話をしますと、一番音声認識の機能が欲しいのがテープ起こしなんですが、今の音声認識エンジンでは複数の人がマイクから遠いところでしゃべっているものはとても無理です。そこで、座談会の録音音源を、聞いた先から自分で発声して音声入力する、という方法を試してみました。これなら実用的だと感じます。

【野口】いままでもテープ起こしではそういう手法がとられていたようですが、聞いたままおうむ返しで入力しても、すぐに使える原稿にはなりませんね。もともと、人間がきちんとしゃべっていない、論理的にも、文法も発音もきちんと話してはいないということです。ここで必要とされるのは、音声認識の進歩ではなく、人間の能力の向上です。