録音したり、動画で撮ったりと、議事録などを音声で集めるのは手軽にできますが、音声をテキスト化するために文字起こしをするのは膨大な時間と手間がかかりますよね。1時間の音声なら、どんなに頑張っても文字起こしには1時間以上かかるのは当然ですし、言い回しや前後の文脈がわからないと起こせない部分もあり、とても大変です。
もう文字起こしは嫌だ!誰か音声のテキスト化をやってくれないかなあ・・・と一度は思うことがありますよね。なんと実は今の時代、音声をテキスト化してくれるツールが数多く存在します!あの煩わしい文字起こしとおさらばできるなんて、どんなツールなのか気になるでしょう。
そこで今回は、文字おこしを自動でやってくれるおすすめの音声テキスト化ツールについてお伝えします。おすすめのツールに入る前に、まずはそもそも音声をテキスト化する仕組みについて解説しましょう。
音声をテキスト化する仕組みとは
複雑で目に見えない音声をツールで、わかりやすく目で見えるテキスト化できるなんて不思議ですよね。その不思議の中身である、音声をテキスト化する過程は次のようになります。
- 音声を録音する
- 音声(音波)を加工する
- 音波から音素を特定する「辞書」を用いて音素の並びを単語に変換する
- 単語の並びを文章にしてテキストとして出力する
音波や音素など、聞きなれない用語もあるので、補足しながら解説していきます。
音波とは目には見えない音の波のことで、発生された音声は音波で耳に届きます。音声にはさまざまなノイズが入っているので、テキスト化に必要な特徴(音の強弱や周波数など)を抽出して扱いやすいデータに加工する作業が必要です。
その後、加工されたデータから、音素と呼ばれる音の最小構成単位を特定して、テキスト化に変換する準備をします。音素は言語によって異なり、日本語の音素は次の通りです。
- 母音:あいうえお
- 撥音:ん
- 子音:23種類
例えば「音素」は、o-n-s-oとなり、このアルファベットの一字一字が音素に当たり、この音素を元にテキスト化が行なわれます。
特定された音素はあらかじめ登録されている「辞書」を元に、音素のパターンから対応する単語をマッチングし、日本語の単語として読めるようにします。この辞書を使うというモデルはパターンマッチ辞書モデル、この処理はパターンマッチングの処理と呼ばれており、音声のテキスト化において欠かせません。
とはいえ、単語だけではきちんとした文章ではなく、テキストとしては不十分ですよね。そこで活躍するのが言語モデルで、大量のデータから単語同士のつながりを予測し、より正確な文章を組み立てまです。あらかじめ蓄積したデータから見つけ出した可能性の高い組み合わせ例を元にテキスト化します。
以上が音声をテキスト化する仕組みになります。では、実際に音声認識の実状はどのようになっているのか気になりますよね。続いて、音声認識ツールのうち、特にすごいGoogleの音声認識ツールについてお伝えします。
Googleの音声認識ツールがすごい!
Googleの音声認識ツールがどのようにすごいかというと、主に3つの特徴があげられます。
導入が簡単で無料
Googleの音声認識ツールの導入はとても簡単で、PCであればブラウザのGoogle Chrome、Googleのアカウント、マイクを用意するだけで試してみることができます。スマホではアプリのダウンロードが必要となりますが、それでも非常に手軽に導入が可能です。加えて、Googleの音声認識ツールは無料で提供されており、とりあえず音声のテキスト化を試してみたい!という人にもうってつけでしょう。
速度が速い
速度が遅くてもたつかれると使いにくいですし、ストレスがたまる一方ですよね。入力タイムラグを感じさせないほどのスピードで、リアルタイムに音声をテキスト化してくれるのがGoogleの音声認識ツール。Googleの音声認識ツールはかなり速度が高いので、そんな心配はいりません。
また、一般的に音声を発する方がタイピングするよりも速く入力することができます。ほぼリアルタイムでテキスト化してくれるGoogleの音声認識ツールなら、タイピングの苦手な人にも向いていますし、たとえタイピングが速くても速く文章を生成することが可能となるでしょう。
変換の精度が高い
いくら導入が楽で無料でも、いくら音声のテキスト化の速度が速くても精度が悪くては意味がありませんよね。しかしGoogleの音声認識ツールならその心配はいりません。専門用語の入力に時間がかかったり、句読点や改行の入力はできないものの、上手い具合に変換してくれたりと、精度が高く非常に使い勝手の良いツールとなっています。
より詳しく知りたい場合は、こちらの公式ガイドもご覧ください。
Googleの音声認識ツールのすごさがわかったところで、Googleの音声認識ツール以外のおすすめの文字起こしのアプリやソフトを紹介します。まずは、スマホのアプリです。
おすすめの文字起こしアプリ3つ
スマホにはさまざまな文字起こしのアプリがありますが、その中でもおすすめのものを3つ紹介します。
Edivoice
最初に紹介するのは、無料のアプリであるAndroidのEdivoiceです。Edivoice最大の利点は、Googleの音声認識ツールではできなかった句読点や改行の入力ができることです。これで煩わしい句読点や改行の手打ちの必要がほとんどなくなりますよね。
speechy
speechyはiPhoneのアプリで、直感的に操作できてシンプルで使いやすい一部有料のアプリになります。最大の特徴は、テキストをEvernoteやDropBox、Googleドライブなど、その他のソフトにワンクリックで送信できることです。音声をテキスト化した後の管理も非常に楽で、導入を検討したいアプリの一つですよね。
グラバー
グラバーはiPhoneのアプリで、最大15秒の文字起こしが可能な、無料で使えるシンプルなメモアプリになります。文字起こししたデータはURLにて他の人と共有ができるため、とても便利に使うことができます。短時間の簡単なメモ程度の音声のテキスト化に向いているといえるでしょう。
文字起こしのおすすめソフト
文字起こしができるのはスマホだけではなく、PCにも存在します。主だったものだと、次のフリーソフトが存在します。
PCに標準搭載された音声認識
多くの場合、PCには標準で音声テキスト化ソフトが入っており、無料で使うことができます。Windowsのものは誰でも使いやすいというメリットがある一方、通常の話す速度では精度が悪く、テキスト化に向くほどの精度とはいえないパターンもあるのだとか。Macにも搭載されており、言語や方言の設定ができたり、インターネットに接続していても音声入力を使用できます。
Speech to Text(IBM Watson)
IBMのWatsonを使ったSpeech to Textは正確にはソフトでなくWeb上のサービスですが、マイクで話した音声や録音した音声ファイルを瞬時にテキストとして表示してくれます。英語のサイトですが操作は簡単で誰でも使えるようになっており、とても便利ですよね。無料で使える範囲は限られていますが、是非一度お試しあれ。
最後に、これらの音声テキスト化ツールを使う際に押さえておきたいポイントについて解説します。
音声テキスト化ツールを使うときのポイント
音声テキスト化ツールを使うときもっとも大事なポイントは人それぞれ異なりますが、そのうちの一つは「精度の高さ」でしょう。個々の音声テキスト化ツールの品質で速度や精度はある程度決まってしまいますが、発声や録音する側にもできる対策があります。
それは、録音時にマイク、特に指向性のあるマイクを使うことです。マイクを使うことで周囲のきれいに音を録ることができ、また指向性の高いものを使用することで雑音を録らずに済みます。マイクを用意するのは煩雑であったり、お金がかかったりしますが、より良く自動で音声のテキスト化するためにも用意しておきましょう。
このように、録音の仕方が、音声テキスト化ツールを使用する上で重要なポイントとなります。
さて、今回はおすすめの音声テキスト化ツールをまとめ、お伝えしました。まず、音声のテキスト化の仕組みは次のようなことでした。
- 音声を録音する
- 音声(音波)を加工する
- 音波から音素を特定する
- 「辞書」を用いて音素の並びを単語に変換する(パターンマッチ辞書モデル)
- 単語の並びを文章にしてテキストとして出力する(言語モデル)
重要なのが、パターンマッチ辞書モデルや言語モデルで、これがあるからこそ音声のテキスト化が可能となっています。
無料で使える音声テキスト化ツールのうちでも、Googleの音声認識ツールは群を抜いて優れています。速度も精度も申し分ないので、議事録作成やブログ記事執筆の際に利用することをおすすめします。
音声テキスト化ツールはGoogle以外にもあり、スマホにはさまざまな音声テキスト化アプリが存在します。句読点が打てたり、データのやり取りが容易だったりと、それぞれメリットがあるので使い分けましょう。
PCのフリーソフトもいくつかあり、特にPCにデフォルトで入っている音声テキスト化ソフトは誰でも使えるので、試してみたい人はまずデフォルトのソフトを使ってみましょう。
音声テキスト化ツールはそのまま使えばいいというものではなく、精度を向上させるためにはマイクや言い回しに気を付けなければなりません。音声テキスト化ツールをかしこく使うには、私たち人間側も努力が必要なんです。
今後AI(人工知能)を支えるディープラーニングの技術の発展により、ますます高精度な音声テキスト化ツールも増えてくることが予想されます。とても便利なツールなので、上手く選択し、使いこなしましょう。
AI:人工知能 音声認識とは|基礎知識・仕組み・現在の事例を解説
音声認識技術の仕組みと課題丨音声がテキスト化されるまで|トラムシステム
音声認識の仕組みと、隠れマルコフモデル(HMM)入門
Google音声入力の精度が半端じゃない(他の音声入力ソフトとの比較やおすすめのマイクも紹介)
無料で音声入力ができる「Google音声入力」の使い方【超便利】
音声をテキスト変換する(文字起こし・テープ起こし) アプリランキング TOP10
【検証】無料で使える文字起こしソフト・アプリを比較8選
Androidの音声入力で句読点を入力できる「Edivoice」
【無料】文字起こしアプリ/ソフト8選を比較解説!音声をテキスト化しよう
フリーの音声テキスト変換ソフト4つを紹介!
音声ファイルをテキストに変換!「Speech to Text」
録音音声の自動文字化をできるだけ高精度で行うために、知っておきたいポイント(1)
録音音声の自動文字化をできるだけ高精度で行うために、知っておきたいポイント(2)