【初心者向け】Pythonで使えるお役立ち機械学習ライブラリまとめ

少しずつ私たち生活に入り始めているAI（人工知能）には機械学習の技術が非常に重要であり、その開発を支えるためにライブラリという便利なツールがあります。

機械学習には複雑なプログラミングを行うので完成までにかなりの時間を要しますが、AIエンジニアはライブラリを使用して、作業量を軽減し効率よく開発を行っているのです

機械学習は複数のプログラミング言語で開発できますが、中でもPythonは機械学習で広く使用されており、Pythonの機械学習ライブラリは数多く開発され、機械学習の技術の一つディープラーニングのライブラリも登場しています。

しかし、いくらライブラリが便利なツールといっても初心者にとって機械学習の開発は難しいですよね。

ところが機械学習とディープラーニングのライブラリには初心者でも扱いやすいモノもあり、ライブラリだけでなくその他にも便利なツールが数多くあるのです。

そこで機械学習とディープラーニングのライブラリにはどのような種類があるのか、またライブラリ以外で役に立つツールについてお伝えします。

そもそもライブラリとは
Pythonで使える機械学習ライブラリ・フレームワーク
Pythonで使えるディープラーニング（深層学習）のライブラリ・フレームワーク
AI（機械学習）開発で役に⽴つライブラリ以外の定番ツール

そもそもライブラリとは

これまでプログラミングや機械学習の経験がなければ、ライブラリと聞いてもよく分かりませんよね。

ライブラリを直訳すると図書館、資料室、書庫などの意味ですが、プログラミングや機械学習の世界でライブラリは、開発によく使用する機能を持ったプログラムを部品化し、まとめて保存しておくファイルを指します。

ライブラリに保存されているプログラムは単体で機能しませんが、必要なときに他のプログラムから呼び出されて連結すると実行できるようになっています。

そしてライブラリのおかげでAIエンジニアは、機械学習のプログラミングを最初から行わずに済むので作業効率が大幅に向上するのです。

また他にも、ライブラリのような便利な働きをするフレームワークと呼ばれるツールがあります。

インターネットで検索すると、ライブラリとフレームワークを同じモノとして扱われていることが多いのですが、実際は違います。

フレームワークはあるプログラムの基本的な流れを示した設計書で、その流れの中で目的に合わせた具体的な処理を自分で組み込みプログラムを完成させます。両者の役割は具体的に見ると違いますが、ライブラリとフレームワークが機械学習の開発に便利なツールという点では同じです。

そしてPythonを使用した機械学習のために、便利なライブラリ、フレームワークがたくさん開発されています。

Pythonの公式サイト

Pythonで使える機械学習ライブラリ・フレームワーク

機械学習のライブラリは用途に合わせて様々な種類が開発されています。

ここではその中でも機械学習によく使用されている、scikit-learn、NumPy、Matplotlib、Pandasについて紹介します。

scikit-learn（サイキット・ラーン）

scikit-learnは有名なPythonの機械学習ライブラリで、機械学習全般のアルゴリズム（計算による問題解決の方法）が実装（組み込まれている）された人気のあるライブラリです。

機械学習は集められたデータを分析して、その特徴を学習し答えとなる未来の予測や分類ができます。そしてscikit-learnを使用すると自分が行いたいデータ分析方法に対して、答えを導き出すために適切なアルゴリズムを呼び出してくれるのです。

またscikit-learnには付属されているサンプルデータがあるので、すぐに実装を試すことも可能。

このようなことからも機械学習を始めやすいライブラリなので初心者に適していると言えますよね。

scikit-learnの公式サイト

NumPy（ナンパイ）

NumPyは機械学習で数値計算を行うためのライブラリ。基本的な計算であればPythonでも行えますが、NumPyを使用する方が高速化することも可能です。通常、機械学習では大量のデータ処理に時間が掛かるのですが、NumPyを使用すると時間を短縮できます。

Pythonの機械学習ではNumPyがよく使われることが多く、NumPyを抜きにしてプログラミングを行うのは難しいとも言えるでしょう。

そのためNumPyはPythonの機械学習に欠かせないライブラリであり、ぜひ初心者はNumPyを使用した計算方法を学んでください。

NumPyの公式サイト

Matplotlib（マットプロットリブ）

Matplotlibはデータをグラフや画像として表示できるグラフ描画のライブラリです。Matplotlibを使用すると線グラフ、棒グラフ、円グラフなどを描画でき、2次元だけでなく3次元の描画も表示できます。

MatplotlibはNumPyと一緒に利用することが多いので、機械学習のデータ分析には欠かせないライブラリの一つでしょう。

Matplotlibの公式サイト

Pandas（パンダス）

Pandasはデータ分析を行うための機械学習ライブラリで、基本的なデータファイルの読み込み、追加、修正、削除などの処理を行います。

機械学習では大量のデータを扱うことが多いので、効率よくデータ分析が行えるPandasはPythonの機械学習に必須と言えるでしょう。

Pandasの公式サイト

Pythonで使えるディープラーニング（深層学習）のライブラリ・フレームワーク

今度はディープラーニング（深層学習）のライブラリ・フレームワークのご紹介をします。

ディープラーニングは機械学習の技術の一つですが、初心者には何がどう違うのか分かりにくいですよね。

従来の機械学習では集められたデータの特徴を人間が決めて、それを基にコンピューターが学習していました。しかしディープラーニングはニュートラルネットワークという人間の脳神経回路をまねたアルゴリズムで、コンピューター自身が特徴を捉えて学習していく技術なのです。

現在ディープラーニングは様々な分野で実用化が進んでおり、その裏ではAI（人工知能）開発のためにディープラーニングのライブラリも次々と進化しています。

ですからディープラーニングにも様々なライブラリが開発されていますが、その中でもよく使用されている4つ紹介しましょう。

3-1　TensorFlow（テンソルフロー）

TensorFlowはGoogleが開発したディープラーニングのライブラリ。TensorFlowを具体的に説明すると、ニュートラルネットワークの構築を行うことができ、データの読み込み、前処理、計算、状態、出力などの処理に対してテンソルが扱われています。

テンソルについてはこちらを御覧ください。

TensorFlowの特徴でもある計算処理は、計算グラフと呼ばれる計算の流れをグラフ化し解りやすくする方法でニュートラルネットワークの構築をしてから処理する「Define and Run」の方式で行われています。（最新版のTensorFlowでは計算グラフでニュートラルネットワーク構築と計算処理を同時に行う「Define by Run」も行えるようになりました。）

そしてTensorFlowは基本的な計算処理から高速でも計算処理を行えるので、使用しているユーザーが多いのですが、計算処理には慣れが必要なので初心者にはハードルが高いライブラリでもあります。

TensorFlowの公式サイト

3-2　Keras（ケラス）

Kerasでは、作成したプログラムをTensorFlowなど他のディープラーニングのライブラリ上で動かせる設計になっており、また実行するライブラリも自由に選択できるようになっています。

他のライブラリよりも簡単にニュートラルネットワークを構築できる設計になっており、プログラミング経験がなくても簡単にプログラムを作成できるので初心者にもやさしいライブラリです。

＊Kerasの公式サイト

Chainer（チェイナー）

Chainerは日本のベンチャー企業「Preferrd Networks（プリファード・ネットワークス）」（PFN）が開発した、日本人エンジニアに人気があるニュートラルネットワークのライブラリです。

Chainer はTensorFlowのところで紹介した、計算グラフでニュートラルネットワーク構築と計算処理を同時に行う「Define by Run」の方式なので計算速度が速く、学習することで変化してくニュートラルネットワークにも簡単にデバック（手直し）ができます。

また直感を頼りにプログラミングできるライブラリなので、知識や経験のない初心者でも扱いやすくなっています。

＊開発元のPNFは12月5日にChainerのアップデートを終了し、次に紹介するPytorchに移行すると発表しました。

Chainerの公式サイト

Pytorch（パイトーチ）

PytorchはFacebookの人工知能研究グループが主導して開発したディープラーニングのライブラリで、Torchという機械学習ライブラリを基に作られました。

柔軟で複雑なニュートラルネットワークの構築ができ、計算処理はChainerから分岐した「Define by Run」方式なのでプログラミングがChainer似ています。またNumPyと基本的な操作方法が似ているので、NumPyを使い慣れている人にとっては使いやすいでしょう。

Pytorchは2016年後半に発表された比較的新しいですが、着実に人気を伸ばしているライブラリです。

Pytorchの公式サイト

AI（機械学習）開発で役に⽴つライブラリ以外の定番ツール

Pythonで開発する機械学習、ディープラーニングには様々なライブラリが登場しており、ライブラリのおかげで作業効率の向上、高度な計算処理、複雑なニュートラルネットワークの構築が容易にできることが分かりました。

そしてライブラリだけでなく、開発をするために必要なエディタ、ノートブック、総合開発環境などの便利なツールが数多く開発されています。

Jupyter NotebookとJupyter Lab

Jupyter Notebook（ジュパイター・ノートブックまたはジュピター・ノートブック）はノートブックという形式で機械学習のプログラムや実行結果と、その際の記録を簡単に作成できまとめて管理できます。また後から結果とメモを確認できるので自身が作った作業内容の振り返りや、チームでの作業内容の共有に便利です。

そして現在はJupyter Notebookに新たな機能を追加した後継ソフトウェア、Jupyter Lab（ジュパイター・ラボまたはジュピター・ラボ）が登場しています。

Jupyter Labでは、これまでJupyter Notebookで表示できる画面が1画面だけでしたが、改良されて複数の画面を表示できるようになり作業効率が良くなっています。

Jupyter Labの公式サイト

Visual Studio Code（ビジュアル・スタジオ・コード）

Visual Studio CodeはMicrosoft製のテキストエディタで様々なプログラム言語に対応しており、Pythonで機械学習のプログラミングをするためにはPython適した拡張機能でインストールします。

Visual Studio Codeにはエディタの基本的な機能が備わっていますが、必要に応じて新しい機能を追加したい場合は拡張機能でインストールできます。

Visual Studio Codeの公式サイト

Spyder（スパイダー）

IDE（Integrated Development Environment）は機械学習の開発に必要な複数のツールをまとめている総合開発環境のソフトウェアです。

そしてSpyderはPythonでのプログラミングを意図して作られたIDEであり、プログラミング作業での編集や実行、入力補完、デバックといった基本的な機能やNumPyなどの必要なライブラリも備わっています。

Spyderでは機械学習の開発で行う様々な作業を1つの環境に集約して行えるので、開発を効率よく進められるでしょう。

Spyderの公式サイト

Anaconda（アナコンダ）とMiniconda(ミニコンダ)

AnacondaはIDEも含めた機械学習の開発に必要なツールがまとめて備えられたソフトウェアです。Anaconda１つでPythonやNumPyを始めとする機械学習・ディープラーニングのライブラリ、Jupyter Notebook、Spyderなどのエディタ、ノートブック、IDEが手に入るので自分でツールを揃える手間が省けます。

しかし機械学習やデータ分析に必要なツールがたくさん詰め込まれているので、インストールのサイズが大きいのがネック。その場合にはAnacondaのツール構成を最小限に抑えているMiniconda(ミニコンダ)が用意されており、必要なツールがあれば随時自分でインストールできます。

Anacondaの公式サイト