Google Colaboratoryでデータサイエンスを始めよう【使い方入門】

Googleが運営する、無料のPython環境がGoogle Colaboratoryで、データサイエンス・機械学習だけでなく生命医科学研究の現場でも広く使われています。

この記事では、Google Colaboratoryの入門的な使い方を解説します。

Google Colaboratoryとは

データ分析や機械学習に関する多くの入門書では、Python実行環境の1つであるAnacondaをパソコンにインストールすることを勧めています。

Anacondaをインストールすれば、データ分析に使うPandasや機械学習のscikit-learnといったライブラリーも使えるようになるのでとても便利です。

何より、Jupyter Notebook (ジュピターノートブック) というとても有用なツールが利用できるようになり、

しかし、Anacondaの環境を自分のパソコンに用意するのは初めての方にとっては少し敷居が高いです。

そこで、Google Colaboratoryというウェブベースのツールを利用すれば、こういった環境構築を全部スキップしていきなり本題の学習に入ることができます。

Google Colaboratoryは、グーグルが開発したツールで、GmailなどのGoogleアカウントを持っている方であれば無料でJupyter Notebook等を使うことができます。

Colaboratory、あるいはもっと省略してColabと言われることもありますが全て同じものです。

YouTubeに公式の解説動画があります。

どのような分野の勉強でもそうでしょうが、準備で時間をかけて満足せず、本題に取り掛かることが大事です。

この記事の残りの部分では、Google Colaboratoryの使い方を図入りで説明します。

Google Colaboratoryの基本的な操作方法

Google Colaboratoryの始め方

Google Colaboratoryは、Googleのこちらのサイトにアクセスし、Googleアカウントでログインするだけです。

「ファイル」メニューの「新しいPython3ノートブック」を選択します。

新しいノートブックができると、このような画面になります。「.ipynb」というのはJupyter notebookの拡張子で、その前の部分は自由に編集することができます。

Google Colaboratoryでのコードの実行方法

Pythonのコードは、コードセル(code cell)と呼ばれる場所に入力していきます。例えば、「Hello, World!」と表示させるには、

print("Hello, World!")

と入力します。

そのコードセルにカーソルを合わせて、SHIFTENTERキーを同時に押すことで実行されます。

または、左端にある矢印をクリックすることでも実行できます。

Google Colaboratoryの使い方

Google Colaboratoryへファイルをアップロードする方法

データ解析にGoogle Colaboratoryを使うのであれば、その解析対象になるデータもアップロードできなければいけませんね。

いろいろな方法がありますが、一番簡単な方法をここでは紹介します。

まず最初に、左側にあるつまみの部分をクリックしてメニューを表示します。

次に「ファイル」をクリックします。

そうすると「アップロード」が出てくるので目的のファイルをGoogle Colaboratoryにアップロードすることができます。

Colaboratoryには、データサイエンスで必須のNumPyやPandasといったとても便利なツール群がいくつもインストール済みなので、面倒な環境構築は不要です。

NumPyやPandasはいろいろな本が出ているので1冊手にとってやってみるといいでしょう。NumPyとPandasの意外と知らない10の関数 【コードあり】でも少しだけ紹介しています。

Google Colaboratoryを使った配布コードの実行方法

最近のプログラミングやデータサイエンスの書籍では、ソースコードをGithubなどからダウンロードできるようになっていることも多いです。

例えば「Python Data Science Handbook」という、海外では大人気のデータサイエンスの本を見てみます。


この本で解説されているコードについては筆者のgithubページで公開されています。

このページにある、こちらのマーク

は、ソースコードをColaboratoryで動かすことができるということを意味しています。

実際にクリックしてみるとこのようなページになり、

「ドライブにコピー」を押すことで自分のGoole Colaboratoryの環境で実行できるようになります。

Google Colaboratoryを使った当サイトのチュートリアルの実行方法

当サイトでも、今後Google Colaboratoryによるソースコードの共有をすることが増えていくと思いますので、ファイルの開け方を解説します。

例えば、Google Colaboratoryのファイルが

このような形

で共有されるのでクリックします。

そうするとこの画面になり、上部にある「Google Colaboratoryで開く」をクリックすることで

目的のファイルが実行できるようになります。

Google Colabの制約とパワーアップ版のColab Pro

Google Colabは無料で使える一方で、いくつかの制約もあります。その主なものは次の2点です。

12時間ルール: 新しく起動してから12時間経過するとColabが落ちる
90分ルール: ノートブックのセッションが切れてから90分経過するとColabが落ちる

データサイエンスをちょっと学習している段階ではこの2つの制約は大きな問題にはなりませんが、もっとがっつりとColabを使いたい方向けに大幅にパワーアップしたColab Proも有料ですがあります。 Google Colab Proを日本から使う方法 【コスパの比較もあり】にまとめています。

関連サイト・図書

この記事に関連した内容を紹介しているサイトや本はこちらです。

NumPyとPandasの意外と知らない10の関数 【コードあり】

Google Colab Proを日本から使う方法 【コスパの比較もあり】

Qiita

まとめ

最後に今回の内容をまとめます。

  • Google ColaboratoryはGoogleが無料で提供するデータサイエンスの勉強用環境
  • 自分のファイルをアップすることも、他の人が作ったコードを実行することもできる
  • Googleアカウントを用意すれば今日から始められる

今日も【医学・生命科学・合成生物学のポータルサイト】生命医学をハックするをお読みいただきありがとうございました。