AI(人工知能)・機械学習の分野において
「敵対的生成ネットワーク(GAN)は、この10年間で最も興味深いアイデアである」
これはディープラーニングの権威の一人であるYann LeCunが述べた言葉です。
敵対的生成ネットワーク(GAN)???
と思われた方は多いかもしれません。僕も敵対的生成ネットワーク(GAN)がわからなかったので調べてみたところ、、、今ディープラーニングの業界で最高に熱い話題になっている技術だということが判明しました。そしてこれがすごいのなんの!!!∑(゚Д゚)
驚きの事例がわんさか出てくる出てくる!!あまりにすごかったのでシェアしたくなったわけです。そこで今回は、敵対的生成ネットワーク(GAN)を使うと何ができるか!?についてお伝えしていきます。
「ではまず仕組みの話から・・・」とすると「前置きはいいから早く事例事例!!」という声が聞こえてきそうなので今回は先に事例をどんどんご紹介していきます。
ーーーーーーーーー<補足>ーーーーーーーーー
※機械学習:AI(人工知能)を実現するための技術の一つで、近年非常に注目を浴びています。コンピュータがデータに潜むパターンや傾向を掴んで、そこから未知のデータの予測が可能になります
※ディープラーニング:脳の神経ネットワークを単純化してコンピュータのプログラム上で再現した技術です。音声や画像、自然言語(人間が話す言葉)を対象としたテーマに対して、従来の手法を圧倒する高い性能を示しAIブームの火付け役となりました。
※GANはGenerative Adversarial Networkの略で、ディープラーニングアルゴリズムです。仕組みについては後述します
ーーーーーーーーーーーーーーーーーーーーーー
GANでリアルタイムでウマがシマウマに
な、なんということでしょう。。。ウマがシマウマの映像へと変換されていますよ!しかもリアルタイムでこのような処理ができるというのですから本当に驚きですよね。コチラはCycleGANという異なる二つのドメイン画像を交換する技術で、ウマをシマウマに変換したり、シマウマを馬に変換できるとのこと。本当にびっくりです∑(゚Д゚)
GANで誰もがプロのように踊れる動画ができました
ダンスの素人がプロのようにカッコよく踊れる時代がやってきました(動画上で)!こちらは左上のプロのダンサーの動き(Source Video)に合わせて素人(Source to Target)が同じように動くというものです。動画を見るとところどころに不自然さや歪みが見られますが、これらの問題は今後解決されていくはずです。
この驚きの動画は、プロダンサーから動きを抽出したものを棒人間のような人形に写し、別で素人にいくつか動きをさせて録画しておいたものを用いて、敵対的生成ネットワーク(GAN)を訓練して素人の動き全体と表情を生成しているようです。
GANでテキストから画像を生成する
いきなり英語が並んでいて英語が苦手な方には申し訳ないのですが、こちらの画像実は全て”text-to-image”と呼ばれる処理によってテキスト(文章)を元にコンピュータが生成したものです。コンピュータによって描かれたこれらの鳥や花は現実には存在しないかもしれませんが、敵対的生成ネットワーク(GAN)を用いればゼロから画像を生成できる段階まで現在技術は進んでいます。
「こんな画像が欲しいんだよね」とAIアシスタントに話しかけると、「はいご主人様、ただいま作成しました」なんて言って画像が出てくる時代はもうすぐに到来しそうですよね。
GANで画像の一部分を変換する
なんとパンツ姿の女性がスカート姿になっているではありませんか!!髪の毛の色も変化していますね!!敵対的生成ネットワーク(GAN)を用いれば、画像内の一部分を自然に変換できることも可能です。画像加工の作業については、もはや人がやらない時代がすぐにでもきそうです!!
メガネの男性 ー メガネ無しの男性 + メガネ無しの女性 = メガネの女性
「1+1= 田んぼの田」という謎かけはきっと一度は聞いたことがありますよね。敵対的生成ネットワーク(GAN)を用いれば画像上でこれと同じことが可能です。画像を生成するだけでなく演算までできちゃうということで、「メガネの男性」から「メガネ無しの男性」を引いて「メガネ無しの女性」を足したら「メガネの女性」になる、なんていう面白い処理ができるんです。
GANで本物そっくりの人物動画の生成
本物のオバマさんのデータで訓練をして作られた偽オバマさんが、本物のオバマさんの動画に合わせてリアルタイムで話しています。あまりにもそっくりなので、どちらが偽物かを言われなければ全然わかりません。一般的にこのような偽造動画は「ディープフェイク」と呼ばれています。
敵対的生成ネットワーク(GAN)によってますますディープフェイクのクオリティは向上しています。
続いてこちらの動画ですが、左の男性の喋りに合わせて同じように動く右側の女性は、敵対的生成ネットワーク(GAN)が本物の彼女の顔を学習して作った偽物です。動画の2分49秒からは逆に女性の喋りに対して偽物の男性が話しているように動画が生成されていますが、もうここまでくるとびっくりして声が出ません。。。
GANで実在しないアイドルの顔を自動生成する
こちらは株式会社データグリッドが開発した架空のアイドルを自動生成するAIです。敵対的生成ネットワーク(GAN)が使われており、既存のアイドルたちの顔写真を訓練に用いているので自動生成されるアイドルの顔を見ていると「あっ!あのアイドルに似てる!」なんていうことが起こります。
実在のアイドル画像でできるなら、もちろんキャラクター画像の生成もできるよね!ということで現在AI(人工知能)によるキャラクター画像生成プロジェクトについても同社は研究を進めています。
GANで自動で着色!イラストレーターもびっくり!!
こちらはPAINTSCHAINERのWebページで実際に登録不要、インストール不要で利用できるサービス「PaintsChainer」です。自分の書いた線画を自動で着色でき、ありがたいことに自分で絵を用意せずともたくさんのサンプルが既に用意されているので手ぶらでサイトを訪れても塗り絵を楽しむことができます。実際に試してみるとそのすごさを体感できますよ(^^)
以下のサイトからお試しできます
動画を漫画に自動変換する
こちらは「Comixify」のWebサイトから実際に利用できる動画をマンガ風に変換するサービスです。動画ファイルやYouTubeのURLを貼り付けて変換を行うと、コマ割りされたマンガ風の画像が生成されます。こちらは動画のURLを貼り付けたらボタン一つで簡単実行でき、出てきたものを見た時には感動ものですよ!
マンガ興味のある方は下記からぜひお試しください。吹き出しも入れられます。。マジですごい!!
GANで未来の動画を自動生成する
画像を入力することでコンピュータが1.5秒先の未来の動きを予測して動画を自動生成する研究がMITから発表されています。実用化にはまだ至っていないようですがMITの研究者チームによれば、監視カメラやロボット、自動運転などの分野に適用することで例えば目の前の自動車や歩行者の動きを予測する、なんてことに応用ができるとのことです。
敵対的生成ネットワーク(GAN)はどんな仕組みなの?
さて、ここまで驚くような事例を披露してくれた敵対的生成ネットワーク(GAN)ですが「一体どんな仕組みになってんだこれ!?」とそろそろ気になられてきた方も多いのではないでしょうか。
敵対的生成ネットワーク(GAN)の仕組みは、紙幣の偽造者と警察の関係によく例えられます。偽造者の立場である「ジェネレーター」と偽造紙幣を見分けようとする警察の立場「ディスクリミネイター」という2つのニューラルネットワークから敵対的生成ネットワーク(GAN)は構成されています。
- ジェネレーター:偽造者
- ディスクリミネイター:警察
ジェネレーター(偽造者)は本物にできるだけ近い偽物を作り出し、その偽物を受け取ったディスクリミネーター(警察)は偽物であるか本物であるかの判断を行います。ディスクリミネーター(警察)の判断能力が次第に上がってこれば、ジェネレーター(偽造者)は更に本物に近い偽物を造ります。
するとディスクリミネーター(警察)も負けじと能力を上げて、一方ジェネレーター(偽造者)もさらに能力を高めて、、、というのを繰り返していった先に本物と瓜二つの偽物を作れるようになっていく!!というのがGAN(敵対的生成ネットワーク)の仕組みです。
敵対的生成ネットワーク(GAN)はAIの活用を加速する
というのは、本物と瓜二つの偽物を生成するジェネレーターがAI(機械学習)モデルを訓練するための訓練データを生成できると言われているからです。
実用的なAI(機械学習)モデルを作るには訓練するためのデータが必要になるため、従来は訓練データを人間が全て用意する必要がありました。実際ディープラーニング(ニューラルネットワーク)は例えば犬の画像を認識するための学習を行う場合、何万枚という犬の画像を分析することになり、これらの画像を訓練に使用するには「これは秋田犬ですよ」「これはしば犬ですよ」というように、各画像に写っているものに人がラベル(答え)を付けていく必要があったのです。
また、手に入りにくいデータともなれば訓練用のデータを用意することが困難、つまり十分に訓練を行えないわけですからディープラーニングの活用なんてできません。敵対的生成ネットワーク(GAN)を使えば本物に近い画像の生成ができるため、ディープラーニングアルゴリズムの訓練用に必要な訓練データとして使えるケースが出てくるということです。
このように敵対的生成ネットワーク(GAN)は、ディープラーニングの活用にとって非常に大きな障害となる「膨大な手作業の必要性」を解消する可能性があるのです。
まとめ
僕はオバマ大統領のフェイク動画や、動画から漫画を生成するサービス見つけた時に面白くて社内の同僚に共有して盛り上がってました(^^)
敵対的生成ネットワーク(GAN)を用いれば事例でご紹介してきたようにかなり色んなことができますし、ディープラーニング活用の大きな障害を解消できる可能性を秘めています。一方で、例えば著名人に好きなことを発言させて情報操作をしたり、他人の指紋やその他の生体データを偽造するなど、そんな誤った使い方をするのは絶対に許されません。(良い子も悪い子も絶対にダメです)
こんな風に近年のテクノロジーの進化には驚きと興奮の連続ばかりですよね。実際僕は囲碁AIの可能性に心踊らせ、会社を辞めてAIエンジニアを目指し転職した矢先にクビになって今こうして記事を書いてます。人生何が起こるかわかりませんマジで。。。
(その時の話はコチラ↓)
ただ、テクノロジーの進化スピードはもっともっともっと確実に上がっていくはずです。なぜならテクノロジー、コンピュータのコストパフォーマンスは2倍、4倍、8倍・・・という指数関数的に成長していくからです。10年後には1000倍超、20年後には100万倍超えです!!∑(゚Д゚)
実際、人工知能研究の世界的権威でありシンギュラリティを世に広めた張本人レイ・カーツワイルは、「21世紀に起こる技術の進歩は、過去200世紀分の進歩に相当する」と言っているほどです。
敵対的生成ネットワーク(GAN)の事例には驚くばかりですが、この驚きはまだAI時代の序章に過ぎないのでしょう。決して使い方を誤ること無く、今後も新たなテクノロジーの成長に期待していきましょう。
<参考>
・Generative Adversarial Text to Image Synthesis
・INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION
・1.5秒先の未来を映像化するAI、MIT研究者が開発。「それっぽい動き」をぬめっと自動生成
・AIが創造性を獲得。GAN:敵対的生成ネットワークとは何か
・Generative Adversarial Network とは――トップ研究者が解説
・AttnGAN:あなたもカンタンに作れる「AI自動生成画像」でこの秋【絵画芸術】たのしんでみては?
・素人がプロ並みに踊る動画を作れるGAN採用システムのデモ動画
・敵対的生成ネットワーク_GAN (Vol.19)
・AIに創造性を吹き込む「GAN」とはどんなテクノロジーか?
・はじめてのGAN
・GAN:敵対的生成ネットワークとは何か ~「教師なし学習」による画像生成
・人工知能の注目トレンド「GAN:敵対的生成ネットワーク」とは
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ