Pythonのデータ分析の勉強として「Python実践データ分析100本ノック」を読んだところ、環境設定でいくつかつまずいたので、本の感想とともに整理しておきたいと思います。
目次
前提条件
- macOS Catalina
- Anaconda
前半は主にPandasを使ったデータの前処理
本書は、Pythonを使って顧客のデータを分析してビジネスに活かすということを目的に、様々なデータ処理を学んでいくという本です。前半はPandasなどを用いた基礎的なデータの前処理が中心となっています。
特に、Pandasを用いた複数の表データの結合(merge)が繰り返し登場するので、与えられたデータ形式に応じてどのように処理を進めていけばよいかがわかるようになっています。
また、データの前処理で必ず必要となる欠損値のチェックも頻繁に出てきており、実際のデータ分析で必要になるであろう泥臭い前処理の勉強にもなります。
後半のデータ分析は環境構築がやや大変
本書の後半は、Ortoolpy, opencv-python, dlib, mecabなどのライブラリを用いたやや高度なデータ分析となっている。これらのライブラリは、anacondaでは普通にインストールできず、自分で環境構築しながら進めていかなくてはならず、やや大変である。
今回は、各章で使用するライブラリに合わせて仮想環境を構築し、そこに必要となるライブラリをインストールすることにした。以下に各ライブラリのインストール手順を整理する。
ortoolpy
ortoolpyは数理最適化のライブラリです。これは以前に書いた記事でインストール方法について整理しています。
Anacondaでの仮想環境の作り方とortoolpyのインストール
Opencvとdlib
OpencvやdlibはPythonの画像認識の有名ライブラリですが、anacondaには通常入っていないライブラリのようで、自分でインストールする必要があります。
まずOpencvから。Anaconda Cloud で調べるのいくつかのチャンネルからライブラリが公開されている。ここではconda-forgeのものをインストールしてみる。
conda install -c conda-forge opencv
次に、dlibはcondaではインストールできないようなので、pipを使ってインストールする必要があります。
pip install dlib
これをやると、以下のようなエラーが出てきました。
エラー分を読むとCmakeがインストールされていないことが原因とのこと。CmakeをAnaconda Cloudで検索して、以下のとおりインストールする。
Conda install -c anaconda cmake
これでCmakeが入ったので、改めてdlibをインストールします。
pip install dlib
dlibのインストールはなぜかかなり時間がかかったが、無事にインストール完了。
Mecab
MeCabは日本語の形態素解析によく使用されるライブラリです。まずはAnaconda Cloud でMeCabを調べると、以下のものが出てきます。
conda install -c temporary-recipes mecab-python3
これを試してみたところ、エラーがでてインストールできない。
Pythonのバージョンが3.6でないとダメとのこと。Python3.6の仮想環境を作ってやり直します。
conda create -n env_MeCab_py36 python=3.6
これでPython3.6バージョンの仮想環境ができました。これに、改めて上記のコマンドでMeCabをインストールすることができます。
感想
- Pandasを用いたデータ読み込みや細かいデータ前処理が繰り返し出てくるので、泥臭い作業に慣れてきます。複数のデータを読みこんでjoinするという処理のイメージがよく分かるようになります。
- 機械学習については例題は少なく、また解説もさほど多くない。これは別の書籍などで学習するほうが良いと思う。
- 環境構築の勉強にはなります。