Pythonと機械学習であそぼう（機械学習用のデータセットを入手しよう）

各種オンライン講座等を活用することで、いろいろ断片的だった部分がつながったりして、少し前進できた気がします。

Pythonと機械学習であそぼう（機械学習について学ぼう）

実際に一度動作させることで、もう少しイメージがつかめるのではないか？

機械学習のライブラリを使って、学習モデルの生成・最適化・評価といった一連の動作をさせてみたいと思います。

そのためには、学習させるための画像と正解ラベルのデータが必要です。

scikit-learn　機械学習用データセット

今回はScikit-learnで用意されている画像データを使ってみたいと思います。

scikit-learnには、機械学習の処理ライブラリだけではなく、いくつかのデータセットが用意されていおり、こちらのサイトに説明があります。

このように、目的別にいくつかのデートセットが用意されています。さらに、人物顔データセットも用意されています。今回は、人物顔のデータセットをダウンロードして、分類の機械学習を行ってみたいと思います。

Labeled Faces in the Wild

scikit-learnのデータセットの

7. Dataset loading utilities
7.3. Real world datasets

から、lfw（labeled Faces in the Wild）を取得して、データの中身がどういうものかを少し見てみました。

グレースケールの画像を指定することも可能です。

まずはこちらで少し機械学習の動きを簡単な実装をしながら見てみたいと思います。

次回は、どの機械学習の手法を使うか？考えてみたいと思います。

Pythonと機械学習であそぼう（機械学習の手法を選ぼう）