データサイエンスを通して、Pythonプログラミングを学んでいきましょう!!
この記事の目次
Google ColabとPythonでデータサイエンスをはじめよう

前回までの流れ
以下の記事に、Google Colabのアカウント作成からGoogle Driveとの連携までの手順を解説しています。
まだGoogle Colabが使える状態にない方は以下の記事を参考にしてください。
[st-card id=”554″ label=”” fontawesome=”“]Google Colab内のデータを見てみよう

実はGoogle Colab内にもすでにデータがあります。
どこかからダウンロードする必要はありません。
フォルダ内のファイルを確認するlsコマンド
今はとりあえず真似して入力してください。書き方や意味に気を使うレベルにありません。
Google Colabを開いて、ファイル→ノートブックを新規作成を選んでください。
まっさらな画面に切り替わります。
以下の「セル」と呼ばれる長方形にコードを書いていきます。

まずは例のように書いてください。
#以降は写さなくてOKです。
書き写したら、Shift + Enterです。これでそのコマンドが実行されます。
!ls
# sample_data
!lsはPythonのコマンドではありませんが、今はそんなことは気にしなくていいですよ。
重要なのは、間違えずに真似して手打ちすることです。
めんどくさくても手打ちしてください。コピペの方が確かに早いですが記憶できません。
遠回りになりますが、結果として手打ちの方がためになります。
この講座でのコード欄の読み方
#のあとに書かれているものは、コードを実行した結果です。
#のあとは真似して書かなくてOKです。この部位ををコメントといいます。
似たもので、”’があります。これは複数行にわたって書かれたコメントを囲みます。
というわけで、「sample_dataというフォルダがあるよ」とGoogle Colabから返事がかえってきましたね。
sample_dataの中を見たいときもlsコマンドを使う
さて、sample_dataの中身は何でしょう?
以下のコマンドを入力して実行してください。。”’以下は書かないでOKです。
!ls sample_data/
'''
anscombe.json mnist_test.csv
california_housing_test.csv mnist_train_small.csv
california_housing_train.csv README.md
'''
sample_dataの中には、6つのファイルがあることが分かりました。
”’で囲まれた部分は返り値といって、コマンドに対する返答です。
スラッシュ/と円記号¥
Macでは/を使って、Windowsでは¥を使います。意味は同じなので気にしないでください。
この記号はフォルダ階層を示します。
今の例では、sample_dataの1つ下の階層を見ろと命令しています。
a/b/c/d/とすれば、4つのフォルダ(a, b, c, d)を下って、フォルダdの中身を見ることになります。
ファイルを見たいならcatコマンドを使う
どんどん行きましょう。
ではファイルの中身を見てみましょう。
!cat sample_data/README.md
「sample_dataフォルダの中の、README.mdファイルの中身を見ろ」という命令です。
実行すると文章が表示されますよね。sample_data内にあるファイルの説明が書かれています。
README.mdについて
README.mdは文字どおり「読んで」というファイルです。何かしらの説明が書いてあります。
フォルダを共有するときは、READMEファイルを作るのが一般的です。
そして.mdという拡張子は見慣れていないかもしれませんが、マークダウン記法で書かれたテキストファイルです。
マークダウン記法はめちゃくちゃ一般的に使われている形式です。怖がらずに中身を見ましょう。
REAMEだけではなく、他のファイルも見てみてくださいね!!
何度も使って、覚えましょう。
外部ライブラリのデータを見てみよう

現在2020年6月時点では、Google Colab内に見本データがありますが、もしなくなったときのために別の方法を書いておきます。
外部ライブラリ?と思うでしょうが、まだわからなくてOKです。
要するに、Pythonにはもともと備わっていないものを持ってきたという感じです。
from sklearn import datasets
datasets.load_iris()
実行すると、何やら数字の羅列がずらずら出てきますよね。
うーん。プログラミングっぽいですね!!
「アイリス(あやめ)」というデータセットを表示させています。
これは、花びらの長さや幅が記録されており、これによって花の種類を分類するためのデータセットです。
よく読むと‘feature names’なんてありますね。「特徴量」というデータの列項目に相当する部分です。
[st-kaiwa1]
今回はここまでです。
どうですか? プログラミングってそんなに難しくありませんよね。
次回は、Google Driveに保存したエクセルファイルのデータを見てみましょう。