音声生成技術のWaveNetはコンピュータによる音声をより人間の自然な声に近づけましたよね。
ここ数年でAmazonから「Amazon Echo」、Googleは「Google Home」など、さまざまなスマートスピーカーが登場してきました。
スマートスピーカーは私たち人間が話しかければ、それに応えてくれる便利なコンピュータです。初めてスマートスピーカーを使った人は話しかけた内容に対して、的確に分かりやすく応えてくれることに驚いたのではないでしょうか。
そしてもう一つ多くの人が感じた驚きがあります。それはスマートスピーカーから出される人間のような自然な音声。
まるで人間と話しているように感じた方、ひょっとしたら人間だと思い込んでいる方もいらっしゃるでしょう。
そんな驚きの自然な音声を実現させた技術の一つがWaveNetです。今回は音声生成技術のWaveNetについてお伝えします。
DeepMindが発表した「WaveNet」とは何か
「AlphaGo」というAI(人工知能)を搭載した囲碁のコンピュータをご存知でしょうか。
一昔前まで囲碁はAI(人工知能)にとって人間に勝るのは難しいゲームの一つとされていましたが、2017年にAlphaGoが世界最強の囲碁棋士と呼ばれていた柯潔(カ・ケツ)に勝利し世界中を驚かせました。
冒頭で少し触れたように、スマートスピーカー(Google社製)へWaveNetは搭載されています。
- 音声認識・・・人間が話した内容を推定する技術
- 音声生成・・・与えられた文章やデータをもとに人間の音声を生成する技術
- 対話制御・・・人間の話に適切な応答内容を出力する技術
主にこの3つの技術で「コンピュータが人間の話を聞いて適切に音声で応える」対話型音声システムを成立させています。
WaveNetで何が変わったの︖
WaveNetが登場して従来の音声生成技術を用いるよりも、より人間に近い自然な音声生成を実現できるようになりました。
その違いは下記のGoogleサイトで聞き比べることができます。
上記のページにある日本語の標準とWaveNetの音声を比べると、明らかにWaveNetの方が滑らかで自然な発音なのが分かります。
WaveNetにはAI(人工知能)の先進技術であるディープラーニングが使用されています。
このディープラーニングを使用することで、従来では難しかった「大量の音声データの学習」「大量の音声データを計算処理する」が可能になりました。
そのためAI(人工知能)の学習効率と精度が向上し、それを使用しているWaveNetでは先ほどのサンプル音声のように非常になめらかで自然な音声を実現できたのです。
スマートスピーカーとWaveNetの関係
少しずつですが、日本でもスマートスピーカーは普及しはじめています。ここではスマートスピーカーとWaveNetの関係について紹介しましょう。
現在のスマートスピーカーは「天気予報が知りたい」「あの曲が聞きたい」など、私たちが欲しい情報を提供してくれるのがメインになっています。
そしてこれからスマートスピーカーと同じように普及し始めるのがIoT。
IoTはこれまでパソコンやスマートフォンがメインだったインターネットを、家電や自動車などとも接続・連携させて操作などが行えるようになるネットワーク環境です。
そのIoT環境の中でスマートスピーカーは、例えば音声で部屋の照明やテレビの電源を入れるなどの音声操作で使用することも可能になります。
そしてそんなスマートスピーカーから聞こえる音声が人間のような声だと親近感がわきますよね。実際にスマートスピーカーを使っている方の中には、親しみを感じる方もいらっしゃいます。
そのためWaveNetはスマートスピーカーのスパイスのような存在だといえるでしょう。
しかしWaveNetが使われている製品は、ほかにもたくさんあります。
WaveNet技術が使われている⾝近な製品
WaveNetが使用されている製品は複数あります。
「OK Google」でおなじみのGoogleアシスタントはGoogleが提供しているWebサービスです。
つまりインターネットに接続可能でGoogleアシスタントが使用できる製品であれば、WaveNetが作り出す人間のような自然な音声と対話ができます。
そして前章でも紹介したようにIoT環境が普及していけば、もっとWaveNetを用いているGoogleアシスタントもさまざまなところに広がっていく可能性もあるでしょう。
WaveNetの技術は今後どうなるのか
現在でも自然な音声を生成できているWaveNetですが、人間の音声と比べればまだまだです。
ディープラーニングの研究開発は世界中で行われているので、少しずつでも進化して行くのは間違いないでしょう。
囲碁のコンピュータAlphaGoを開発したGoogle傘下のDeepMind社は、スマートスピーカーに搭載されている音声生成技術・WaveNetを開発しました。
WaveNetは従来の技術を用いた音声よりも、より人間に近い自然な音声生成を実現できるようになっています。
その大きな要因になっているのはAI(人工知能)の先進技術・ディープラーニングです。
ディープラーニングをWaveNetで使用した結果、非常になめらかで自然な音声を実現でき、その音声を聞いた人の中には人間のような声に親近感を持つ方も多くいらっしゃいます。
現在WaveNetはGoogleが提供しているWebサービスのGoogleアシスタントに使用されており、Google製品に限らず、iPhoneやパソコンでもGoogleアシスタントが使用できればWaveNetで作り出す人間のような自然な音声との対話が可能です。
そしてこれからさらにWaveNetが進化していくためには「大量の音声データの取得」「ディープラーニングの進化」がカギといえるでしょう。
現段階でもWaveNetが作り出す音声には親近感がわくほどですが、現在進行形でディープラーニングや音声生成技術が研究開発されているので、近い将来に再び驚くような音声がWaveNetで作り出される可能性は大きいです。
【お知らせ】
当メディア(AIZINE)を運営しているAI(人工知能)/DX(デジタルトランスフォーメーション)開発会社お多福ラボでは「福をふりまく」をミッションに、スピード、提案内容、価格、全てにおいて期待を上回り、徹底的な顧客志向で小規模から大規模ソリューションまで幅広く対応しています。
御社の悩みを強みに変える仕組みづくりのお手伝いを致しますので、ぜひご相談ください。