データサイエンティストのお仕事とは?【第1回】R導入編

第1回目である今回は、データ分析ツールの導入がテーマです。

データサイエンティストは、データ分析でビジネスを加速する必要があります。その際に紙とえんぴつだけで分析を進めるのは時間が掛かりすぎます。世の中に存在する有用な分析ツールをいかに使いこなすかがポイントになります。

データサイエンティストが用いるツール

  • Microsoft Excel
    言わずと知れた表計算ソフトですね!結構いろいろなことができます。
  • SPSS
    IBM社の統計解析ソフトです。大学や大きな企業が導入しています。高い!でも使いやすい!
  • SAS
    SAS社の統計解析ソフトです。SAS語という言語で記述します。医療系データ解析が得意。これも高い!
  • Tableau
    いわゆるBIツールの注目株。綺麗なグラフィカル表現に長け、導入企業も増加中。案外安いと評判ですが、本格的な統計分析はできません。
    ※BI:ビジネスインテリジェンスの略で、企業などの組織のデータを、収集・蓄積・分析・報告することで、経営上などの意思決定に役立てる手法や技術のこと。(Wikipediaより)
  • R
    無料の統計解析ソフト。R言語で記述して使います。世界中の統計学者やデータサイエンティストが利用しています!

その他にもさまざまなツールが開発され世の中に出てきています。

このコラムでは、この中から気軽に・簡単に・すぐにデータ分析が始められるものを選びました。それはRです。
Rはインターネットから無料でダウンロードできます。さらに今回は、Rをより便利に使うためのR Studioというソフトもダウンロードしたいと思います(こちらも無料のソフトです)。

RとR Studioのダウンロードとインストール

Windowsをお使いの方向けに説明します。
※Mac、Linuxやその他のOSをお使いの方はこちらをご覧ください。
http://blog.katty.in/1262(Mac向け)
http://bio-info.biz/tips/r_install_linux.html(Linuxやその他OS向け)

1. https://cran.ism.ac.jp/にアクセス。

2. 「Download R for Windows」をクリック。

3. 「base」というリンクをクリック

4. 一番上の「Download R X.X.X for Windows」をクリック。
※常に最新バージョンが表示されます。本記事では最新バージョンがR 3.1.2の時に導入しました。

5. ダウンロードしたファイルを実行。
1_image1

6. 下の画像の「コンポーネントの選択」になるまで「次へ」をクリック。
2_image2

7. 「コンポーネントの選択」画面において、お使いのPCの種類に合わせて32-bit Files64-bit Filesのどちらかにチェック。Core FilesMessage translationsのチェックは外さない。
※PCのビット数の確認は次の方法で確認できます。
「スタート」→「コントロールパネル」→「システムとセキュリティ」→「システム」と進むと、”システムの種類”に32ビットか64ビットが記載されています。

8. その他の設定はすべてデフォルトのまま進めていくとインストールが開始
※途中で管理者用の入力画面が表示された場合は、指示に従い入力して下さい。

9. 完了画面が表示され、「完了」をクリックするとインストール完了
※デスクトップにRのアイコンが生成されていることを確認ください。

image3

アイコンがない場合は、スタートメニューの「すべてのプログラム」にある「R」というフォルダを開いてください。その中にRがあります。
image4

起動してみると、以下のような画面が表示されます。
5_image5

これで無事Rのインストールが完了しました。

右上の×印で終了します。その際「作業スペースを保存しますか?」と表示されますが、「いいえ」を押してください。続いてR Studioのダウンロードとインストールです。
※Windows・Mac・Linuxいずれも以下の手順でダウンロードとインストールができます。

1. http://www.rstudio.com/products/rstudio/download/にアクセス。

2. お使いのPCに沿ったバージョンのリンクをクリック。
image6

3. ダウンロードしたファイルを実行。

4. すべてデフォルト設定のまま「次へ」をクリックしインストールを実行。

5. 完了画面が表示され、「完了」をクリックするとインストール完了。

デスクトップにR studioのショートカットアイコンは生成されません。Rと同様に、スタートメニューの「すべてのプログラム」にある「R Studio」というフォルダを開いてください。その中にR Studioがあります。
image7
R Studioを使う場合、R本体は開く必要がないので、Rのショートカットはデスクトップから削除しても構いません。しかし、R Studioを使用するためにはRがインストールされている必要があるので、Rそのものはアンインストールしないよう注意してください。

R Studioを動かしてみましょう

R Studioを起動してみましょう
image8

カーソル位置のマークをクリックすると次の画面になります。
image9
・左上:エディタ画面
Rの命令文(コード)を記述するスペースです。記述したコードはCtrl+Enterで実行できます。
・左下:コンソール画面
コードの実行結果を表示するスペースです。
・右上:ワークスペース画面
エディタ画面で実行したコードの履歴や、作成したオブジェクトが表示されます
・右下:サブ画面
グラフやヘルプが表示されます。

それでは試しに1+1を計算してみましょう。
左上のエディタ画面に 1+1 と記述し、Ctrl+Enterを押してください。すると左下のコンソール画面に結果が表示されます。
image10
いかがでしょうか。
その他、簡単な計算を実行するRのコードは次の通りです。
image11
通常の四則演算と同様に、掛け算と割り算が優先されます。足し算と引き算を優先する場合は括弧で括ります。
image12
これでR Studioを計算機として使えるようになりました。

終了する場合は右上の×で閉じます。終了時に「Save workspace image to ~/.RData?」と表示された場合、基本的には「Don’t Save」を選択します。
では実際に記述コードはどうなるのかというと、次回起動時にはエディタ画面に残っています(うれしい!)。

しかし、実行結果までは保存されません。前回実行した結果を再度出力する場合には、再びコードを実行する必要があります。

今回はここまで!次回は実際にExcelとR Studioを使用して、簡単な計算やデータ処理をしていきたいと思います。

アサインナビでは、データサイエンスに関するセミナーを随時開催しております。
過去には、データサイエンティストの知識を習得するための実践塾や、特別講師を招いてのセミナーなどを開催しております。

アサインナビイベント情報

過去の様子はこちらからご確認いただけます。

▼データサイエンティスト実践塾▼
第1回データサイエンティスト実践塾を修了しました!

▼データサイエンスの現状と未来▼
シリコンバレーに学ぶ、日本のデータサイエンスの現状と未来 ~これからのデータドリブンな時代に本当に必要なこと~を開催しました


日本最大級のITビジネスコミュニティ アサインナビ