世間ではAI(人工知能)の活用が声高に叫ばれ、様々なメディアでAI(人工知能)に関する情報を目にすることができますよね。AI(人工知能)に関する記事を見ていると「前処理」という言葉を見かけることがあります。
一見、読み飛ばしてしまうような言葉ですが、「前処理」は実用的なAI(人工知能)をつくるためには決して欠かせない工程です。この単語の意味を理解すれば、今以上にグッとAI(人工知能)に対する理解度が上がることでしょう。
そこで今回は、この「前処理」という言葉についてお伝えしていきます。
一言で言うと「前処理」とは・・・
AI(人工知能)のレベルはデータの前処理で決まる
AI(人工知能)を実現するための技術の一つが、近年注目を集めている機械学習です。
機械学習は、データからデータに潜むパターンや傾向を掴み(学習)、掴んだパターンに基づいて未知のデータに対して予測や判定を行う技術です。それゆえ、機械学習によって実現されているAI(人工知能)は、データが命と呼ばれています。
機械学習についてさらに詳しく知りたい方はコチラ
そして、良い(実用的な)AI(人工知能)をつくるためには、良いデータが必要です。これは料理と同じで、食材がなければそもそも料理はできませんし、良い食材がないとどう料理しても美味しいものはできません。
同じように、データがなければAI(人工知能)は学習できませんし、データが悪ければ実用的なAI(人工知能)は作れないのです。
また、AI(機械学習)に学習させるためのデータは、異なるデータベースに散財しているなどの場合があるので、複数のデータベースからデータを抽出したり、データを収集するようなプログラムの準備が必要になることもあります。
データベースとは、定めた規則に基づいて、関連性のあるデータを蓄積して後から使いやすいように整理した情報のかたまりのことです。さらに詳しく知りたい方はこちら
さらに、収集したデータはそのままAI(人工知能)の学習用に利用できるとは限りません。多くの場合、何らかの処理をする必要があります。収集したデータをAI(人工知能)が学習しやすいよう、前もって加工しておく処理のことが「前処理」です。
前処理の具体的な内容としては、
- AI(人工知能)が学習できるようにデータ形式を変換する
- データに抜け漏れや異常が発生していないか確認する
- AI(人工知能)が学習できるように指定のサーバやフォルダにデータを移す
- 適切なファイル名や変数名をつけてデータを管理する
など多岐に渡り、要件に合わせて様々な「前処理」が必要になるのです。もっと前処理について詳しく知りたい方は次の記事もご参考にしてください(^^)
まとめ
つまり、「前処理」とは
<参考>
・栢木 厚(2017).『平成30年度 イメージ&クレバー方式でよくわかる 栢木先生のITパスポート教室 (情報処理技術者試験)』株式会社技術評論社.
・あんちべ(2015).『データ解析の実務プロセス入門』森北出版株式会社.
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ