文字を入力するのがいちいち面倒なので、話したことをそのままテキストに起こせたらいいなぁ、と思うことはありますよね。
例えば…
- 犬のお散歩の途中で思いついたアイディアをメモしたい!と思ったときは、お散歩の続きをしたがる犬をとどめながら、スマホを開いてポチポチメモ
- 得意先へ訪問した後、忘れてしまわないように車の中で報告書作り。ノートパソコンを開いて、不安定なお膝の上でタイピング
- 会議やセミナー、インタビューの音声データの文字起こしを頼まれた。ベテランでも録音時間の3倍はかかると言われている文字起こし、この2時間の録音データを今日中にやるんですか!??
などなど。だからと言ってキーボードやスマホでタイピングすると時間がかかって悩ましいでしょう。
こんなときは、音声の自動テキスト化がおすすめです!そこでこの記事では、音声データのテキスト化におすすめのツール・また音声のテキスト化ツールがどうやってできたのかなどについてお伝えします。
まずはそもそも音声をテキスト化ってどんな仕組みになっているのかを見ていきましょう。
そもそも音声をテキスト化するってどうやるのか、仕組みを解説
例えば「おはよう!」というなにげない挨拶、私たちは難なくこれを聞き取り、朝の挨拶であることを認識しますが、人間でない機械は、そう簡単には認識ができません。そこで、いったいどのようにして音声をテキスト化しているのかをざっとご説明します。
- 音を聞き取る
まずは、その音を聞き取り、音の強弱や周波数などを解析します。 - 音の特徴からテキストを割り出す
音の特徴を学習パターンと照らし合わせ、それが「OHAYOU」であると判断します。 - テキストを辞書と突き合わせて単語化する
「OHAYOU」が、日本語の朝の挨拶である「おはよう」であると割り出します。
最近では大量のデータを参照できるようになり、膨大な辞書からより正解に近いものを導けるようになりました。さらに「今日の」に続く言葉は「天気」「ニュース」が多いなど予測判断し、精度を引き上げています。
次に、音声テキスト化の今と昔を見ていきましょう。
音声のテキスト化の今昔
私にとって「昔の音声テキスト化」は、ドリームキャストで発売されたゲーム「シーマン」や、NINTENDO64から発売された「ピカチュウげんきでちゅう」です。
シーマンは人面魚と会話をしながら育てるゲーム、ピカチュウげんきでちゅうはピカチュウとゆるーく生活するゲームで、特にシーマンは「会話」をメインに打ち出したゲームでしたが、その音声認識精度は…かなりイライラさせられた記憶があります。
当時、ゲームだから許されていた認識精度の低さでしたが、この音声認識は当時「特別な技術」であり、未来を感じさせてくれるものでした。
調べたら、シーマンは1999年発売、ピカチュウげんきでちゅうは1998年発売なんですね…。
そして時は流れて現在、みなさんが持っているスマホに入っているSiriやGoogleアシスタントが、かなり正確に言葉を聞き取ってくれ、軽快な会話をこなしてくれます。
このように音声テキスト化の技術が飛躍的に向上した理由は、どこにあるのでしょうか。実は今も昔も、音声データを音に変換しそれを辞書と突き合わせてテキスト化をするという、音声テキスト化のフローは大きく変わっていません。
しかし、それぞれのフロー、例えば音声の分析、言語化するときの辞書などにAI(人工知能)が組み込まれていて、学習を繰り返すことにより精度がアップ。現在のように高性能な音声認識を、手軽に使えるようになりました。
次に、人気の音声テキスト化ツールをご紹介します。
今、大人気の音声テキスト化ツールをご紹介
技術の向上によって音声認識精度は飛躍的に向上しまし、そのおかげでさまざまな音声テキスト化ツールがあります。その中でも人気のツールを3種類ご紹介しましょう。
Googlekeep
Googleが提供するメモ帳のようなアプリで、私も毎日愛用しています。
こちら、普通に文字をポチポチと打つテキスト入力ももちろんできますが、音声での入力も可能です。音声で入力した場合は瞬時にテキスト化してくれるだけでなく、音声データも残しておいてくれるため、音声で聞き返したいときにも重宝します!
ちょっとした備忘録にぴったりなんですよね。
音声文字変換
こちらはとってもシンプルなアプリで、話しかけるだけでかなり正確にテキスト化してくれます。メモを記憶しておくというよりは、耳の不自由な方との会話サポートに使いやすいアプリです。
スマホにデフォルトでついている音声入力システム
そもそもスマホを使っていれば、キーボード入力の他に「音声入力」を選択することができます。私はドコモを使っているので、ドコモの音声入力システムを使用するかGoogleのシステムを使用するかの選択が可能です。
どちらも使ってみましたが、認識率はかなり高いです!
これさえ使いこなせれば、どのアプリも音声入力できるようになるでしょう。
音声入力のアプリは、こちらの記事でもご紹介しています。
こちらでご紹介した3つのアプリ、どれも認識度はかなり高いのですが、特に使い勝手が良いのがGooglekeepです。次に、そんなGoogleの音声認識の精度についてご紹介します。
Googleの音声認識の精度がすごい!
Googlekeepに、Googleドキュメント、Googleのサービスは音声入力もできる上、Googleアカウントさえ持っていれば誰でも無料で利用できる、というお手軽感が嬉しいポイントです。
もちろんその音声認識度の精度もかなりのものです。試しに「銀河鉄道の夜」を音読して認識させてみましたが、特に面白い山場もなく、普通に聞き取ってくれていました。ジョバンニという固有名詞までちゃんと聞き取っていたことに驚きです。
左側が、Googleドキュメントに音声で入力したデータ、右側がもとの文章です。間違っている箇所に黄色のライン、私が噛んでしまった場所を青ラインしてみましたが、かなり正確に読み取っていますよね。
無理やり難点を言うとしたら、私が噛んでしまったところまで正確にテキスト化されちゃう点かな…w
Googlekeepは無料で使えますので、音声のテキスト化をまだしたことがない方は、ぜひやってみましょう!その正確さに驚くこと間違いなしです。
次に、AI(人工知能)が音声認識をしてテキスト化するサービスについてご紹介します。
AIが音声認識してテキスト化するサービスとは
AI(人工知能)と音声認識の相性は良く、音声をAI(人工知能)がテキスト化してくれるサービスはいくつかあります。そのなかで、会議の議事録に最適なCOTOHA Meeting Assistというサービスをご紹介しましょう。
音声を聞き取ってそれを言語化するのは無料のGoogleドキュメントでも可能ですが、こちらは発言者まで記録、さらに「Aさんは来週までに報告書を提出すること」などのタスクや宿題もAI(人工知能)が聞き取って、議事録とは別にタスク化してくれます。
次に、音声入力の未来についてご紹介します。
今後は「話すだけで文字を入力してくれる」のが普通になる?
シーマンの頃から比べると、音声のテキスト化の精度はどんどん上がっています。今後はAI(人工知能)やスマートスピーカーの台頭により、さらにその技術は上がっていくと考えられますよね。
銀河鉄道の夜を音読していて少し気になったのは、句読点などの記号が入れられないこと、漢字の誤変換、自分が噛んでしまったり言い直したりした部分まで正確にテキスト化されてしまうことの3点でした。それらの問題が解決できれば、キーボード入力に比べてほとんど訓練の必要のない「音声入力」は、次世代のメイン入力デバイスになる可能性もあります。
もしかしたら、キーボードが必要なくなる世界がくるかも!?キーボードから入力してるの、近所ではおばあちゃんだけだよ、なんて言われたりしてw
さて、音声データのテキスト化におすすめのツール・また音声のテキスト化ツールがどうやってできたのかについてお伝えしました。ざっと振り返ってみましょう。
- 音声テキスト化の仕組みは、聞き取った音の特徴を解析し、辞書と突き合わせて言語化するというもの
- 昔の音声言語化はゲーム内だから許されていた精度でしたが、現在はほとんどストレスなくテキスト化してくれる。
- 音声テキスト化ツール3選は、メモ帳アプリGooglekeep、耳が不自由な人とのコミュニケーションに便利な音声文字変換、スマホにデフォルトでついている音声入力システム。
- さすがGoogle大先生、音声認識の精度はすごい上、Googleアカウントさえ持っていれば誰でも無料で利用できる
- 会議の議事録に最適な、AIが音声認識してテキスト化するサービスがある
- 今後は「話すだけで文字を入力してくれる」のが普通になるかも!
今後、音声のテキスト化がもっと正確になりさまざまな人が利用するようになれば、散歩の途中でスマホを取り出し、ぶつぶつとつぶやき始めるというのが、普通の光景になるかもしれませんよね。