Google Colabでデータサイエンスをはじめよう【Dr. Python#2】

icon

[st-kaiwa1]

データサイエンスを通して、Pythonプログラミングを学んでいきましょう!!

[/st-kaiwa1]

Google ColabとPythonでデータサイエンスをはじめよう

前回までの流れ

以下の記事に、Google Colabのアカウント作成からGoogle Driveとの連携までの手順を解説しています。

まだGoogle Colabが使える状態にない方は以下の記事を参考にしてください。

[st-card id=”554″ label=”” fontawesome=”“]

Google Colab内のデータを見てみよう

実はGoogle Colab内にもすでにデータがあります。

どこかからダウンロードする必要はありません。

フォルダ内のファイルを確認するlsコマンド

今はとりあえず真似して入力してください。書き方や意味に気を使うレベルにありません。

Google Colabを開いて、ファイル→ノートブックを新規作成を選んでください。

まっさらな画面に切り替わります。

以下の「セル」と呼ばれる長方形にコードを書いていきます。

まずは例のように書いてください。

#以降は写さなくてOKです。

書き写したら、Shift + Enterです。これでそのコマンドが実行されます。

!ls
# sample_data

!lsはPythonのコマンドではありませんが、今はそんなことは気にしなくていいですよ。

重要なのは、間違えずに真似して手打ちすることです。

めんどくさくても手打ちしてください。コピペの方が確かに早いですが記憶できません。

遠回りになりますが、結果として手打ちの方がためになります。

この講座でのコード欄の読み方

#のあとに書かれているものは、コードを実行した結果です。

#のあとは真似して書かなくてOKです。この部位ををコメントといいます。

似たもので、”’があります。これは複数行にわたって書かれたコメントを囲みます。

というわけで、「sample_dataというフォルダがあるよ」とGoogle Colabから返事がかえってきましたね。

sample_dataの中を見たいときもlsコマンドを使う

さて、sample_dataの中身は何でしょう?

以下のコマンドを入力して実行してください。。”’以下は書かないでOKです。

!ls sample_data/
'''
anscombe.json		      mnist_test.csv
california_housing_test.csv   mnist_train_small.csv
california_housing_train.csv  README.md
'''

sample_dataの中には、6つのファイルがあることが分かりました。

”’で囲まれた部分は返り値といって、コマンドに対する返答です。

スラッシュ/と円記号¥

Macでは/を使って、Windowsでは¥を使います。意味は同じなので気にしないでください。

この記号はフォルダ階層を示します。

今の例では、sample_data1つ下の階層を見ろと命令しています。

a/b/c/d/とすれば、4つのフォルダ(a, b, c, d)を下って、フォルダdの中身を見ることになります。

ファイルを見たいならcatコマンドを使う

どんどん行きましょう。

ではファイルの中身を見てみましょう。

!cat sample_data/README.md

sample_dataフォルダの中の、README.mdファイルの中身を見ろ」という命令です。

実行すると文章が表示されますよね。sample_data内にあるファイルの説明が書かれています。

README.mdについて

README.mdは文字どおり「読んで」というファイルです。何かしらの説明が書いてあります。

フォルダを共有するときは、READMEファイルを作るのが一般的です。

そして.mdという拡張子は見慣れていないかもしれませんが、マークダウン記法で書かれたテキストファイルです。

マークダウン記法はめちゃくちゃ一般的に使われている形式です。怖がらずに中身を見ましょう。

REAMEだけではなく、他のファイルも見てみてくださいね!!

何度も使って、覚えましょう。

外部ライブラリのデータを見てみよう

現在2020年6月時点では、Google Colab内に見本データがありますが、もしなくなったときのために別の方法を書いておきます。

外部ライブラリ?と思うでしょうが、まだわからなくてOKです。

要するに、Pythonにはもともと備わっていないものを持ってきたという感じです。

from sklearn import datasets
datasets.load_iris()

実行すると、何やら数字の羅列がずらずら出てきますよね。

うーん。プログラミングっぽいですね!!

「アイリス(あやめ)」というデータセットを表示させています。

これは、花びらの長さや幅が記録されており、これによって花の種類を分類するためのデータセットです。

よく読むと‘feature names’なんてありますね。「特徴量」というデータの列項目に相当する部分です。


[st-kaiwa1]

今回はここまでです。

どうですか? プログラミングってそんなに難しくありませんよね。

[/st-kaiwa1]

次回は、Google Driveに保存したエクセルファイルのデータを見てみましょう。

コメントを残す

メールアドレスが公開されることはありません。