ysk_son’s diary

勉強の記録

Pythonを使ったデータ分析の学習 - その2(jupyter使い始め、データの読み込み、データの表示)

巷で評判の良いPythonオンライン教材、『【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 | Udemy』を購入し、学習してみた。

前回エントリ(準備編)はこちらから。

セクション1: はじめに

「初心者向けの学習内容である。」「データサイエンティストの基礎を積み上げ式で学んでいく内容である。」という説明を聞く。
Pythonとはなにか?プログラミングとはなにか?という細かな話はほどほどに、講座に沿って学習していけばPythonを使った分析をできるようになります。と、一直線にPythonを使ったデータ分析に学べる雰囲気。色々と眠くなる話がある昨今の教材の中、非常にわかりやすくていいと思う。

セクション2: 分析環境を整えよう

1・pythonとjupyterの紹介
2・Anacondaのインストール
3・Matplotlibの日本語化

と諸々の準備。こちらは前回のエントリにて記載したので割愛。

前回内容と重複する可能性があるが、それぞれのポイントは以下。
jupyterとはPythonなどを書いて動かすためのツールであり、ブラウザ上で動作することが特徴
AnacondaとはPython本体とライブラリを同時にインストールできる便利なもので、環境構築も簡単
Matplotlibとは、可視化のために便利なライブラリだが、日本語対応していないので、設定を変更する必要がある

セクション3: まずデータに向き合おう

データと向き合う前の下準備

ここからいきなりPythonを書くことになる。
(目的に対して直線的ですごくいい)

だがその前に、まずはDeepAnalyticsから「お弁当大作戦After【練習問題】」データをダウンロードし、さらにudemyから教材をダウンロードするのだが、ここについては前回のエントリにて記載したので割愛する。

1点前回のエントリから漏れている作業が合った。
以下についてもここで対応しておく。

 1・マイドキュメントの直下に作成するフォルダはcase1とcase2
 2・「銀行の顧客ターゲティング【練習問題】」データをcase2に格納する

jupyterの立ち上げ

以下の手順でjupyterを立ち上げる。
1・スタートメニューからAnaconda Navigatorを探してクリック
  (結構時間がかかるので待つ)
2・Anaconda Navigatorが立ち上がったらnotebooksをクリック
3・その中のDocumentsをクリック
4・その中に先程作ったcase1があるのでそれをクリック
5・その中に新しいノートブックを作るので、画面右上のNewをクリック

jupyterの画面はこちら。
f:id:ysk_son:20180118174406p:plain


jupyterノートブックを作成すると↓の画面となる。
(貼り付けたスクショは作業後なので、新規時点では白紙のノートブックとなる)

f:id:ysk_son:20180118174905p:plain


それぞれの手書き番号箇所についての説明は以下。
1・「Test」と記載のある箇所はタイトル欄であり、クリックして上書き可能
2・インタラクティブシェルと同じようにその場で結果を返してくれる
3・編集モードでマークダウンモードを選択すると「tetete」とコメントも残せる
4・不正な入力だともちろんエラーを返してくれる

その他jupyter上のコマンドについてはどこか他のWebサイトに譲る。
編集モード、コマンドモードがあり、Shift+Enterで実行だけ覚えておけばまずは良いと思う。

基礎分析と可視化を行う

データ分析を行う上で、基礎分析はとても大切とのこと。
かなり強く大切と説いていたので覚えておいたほうが良さそう。
・データが足りないことが後でわかると多大な手戻りが発生する可能性がある
・間違ったデータを使用してしまうと事実と異なる結果がでる可能性がある

Section3_1.ipynb (教材PART1)

ここから実習。
実際の講座で使用する教材(Section3_1.ipynb)を使用すると内容が保存されるので、後から復習もできて非常に便利。
(私も本エントリはビデオとノートを見ながら書いている)
(是非購入をすすめる)

# おまじないとして言われたとおり記載
# as のあとは略称を定義している
# 改行はEnter
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

# csvデータを読み込む
train = pd.read_csv("train.csv")

# 読み込んだデータを見てみる
train.head()

このように表示される。
便利。

f:id:ysk_son:20180118181148p:plain

# 行数と列数を確認したい場合はshapeを使う
train.shape

# このように返ってくる
(207, 12)

# 先頭から10行目まで見たい場合は
test.head(10)

# 「各自考えてやってみましょう」系の実習は割愛

今回はここまで。
次回は「Pythonの基礎」から再開する。

f:id:ysk_son:20180118182602p:plain

「23/120個の項目を完了しました」らしい。
まだまだ序盤なのだが思ったよりも早くグイグイ分析に進んでいる。
この先がとても楽しみ。