“R”でがんばるデータサイエンティストへの道 #1

株式会社エル・ティー・エス 渡辺翔太

株式会社エル・ティー・エス 業務分析&CRM推進グループ  渡辺翔太。 東京大学大学院にて農学修士を取得。2014年4月にLTSに入社し、現在はコンタクトセンターにおけるCRMプログラム構築の一環としてデータ分析 業務に従事している。[/caption]

こんにちは。
株式会社エル・ティー・エス 渡辺翔太と申します。昨年新入社員として入社いたしました。どうぞよろしくお願いいたします。

さて、数年前から”ビッグデータ”という言葉がはやっていますよね。その後を追うように、”データサイエンティスト”という言葉がはやり始めました。データサイエンティストとは、データを活用してビジネスの課題を解決する人材・や職種です。読者の皆さんの企業でも、データの活用やデータサイエンティストの採用・育成についての議論が盛んに行われているのではないでしょうか。

ここ最近、データサイエンティストを採用したけど全然使えないという話をよく聞きます。詳しく聞いてみると、基本的に企業側のスタンスに問題がありました。そのスタンスというのは、「データを渡すからあとは全部やっておいて」というものです。”データサイエンティスト”と聞くと、データさえあればビジネスの課題を解決してくれるものだと思いがちです。しかし、数字には強いデータサイエンティストも、ビジネスの現場感を知らないと役に立たないのです。
この問題をどのように解決したらよいでしょうか。

一つは、採用したデータサイエンティストにしばらく現場の業務をやってもらうことです。現場感というものを一度身に付けてもらった上でデータ分析を行うことで、少しは役に立つ結果が得られるかもしれません。しかし、もともと分析屋さんだったデータサイエンティストが現場感を身に付けるには、多くの時間を費やしますし、人件費もその分掛かります。

二つ目の方法は、現場の担当者がデータサイエンティストになるというものです。ハードルの高い話に聞こえますが、現場感をもってデータを分析し活用するためにはこの方法が最適なのです。では、現場担当者がデータサイエンティストになるためには何が必要なのでしょうか。

データを分析する上で重要なスキルのひとつに「統計学」があります。しかし、おおよそのビジネスパーソンは統計学を体系的に学ぶことなく過ごしてきたのも事実です。かく言う私も統計学をきちんと勉強したことはありませんでした。そんな私が、この半年間で実践してきた「実際にビジネスの現場で役立つデータ分析の方法」を全10回のコラムでお伝えできればと思います。このコラムを通して、日々奮闘している現場担当者の方に、自分の手でデータを分析しビジネスの課題解決に取り組むデータサイエンティストになっていただきたいと思っています。
第1回目である今回は、データ分析ツールの導入がテーマです。

データ分析によく使用されるツール

    • Microsoft Excel
      (言わずと知れた表計算ソフトですね!結構いろいろなことができます。)
    • SPSS
      (IBM社の統計解析ソフトです。大学や大きな企業が導入しています。高い!でも使いやすい!)
    • SAS
      (SAS社の統計解析ソフトです。SAS語という言語で記述します。医療系データ解析が得意。これも高い!)
    • Tableau
      (いわゆるBIツールの注目株。綺麗なグラフィカル表現に長け、導入企業も増加中。案外安いと評判ですが、本格的な統計分析はできません。)
      ※BI:ビジネスインテリジェンスの略で、企業などの組織のデータを、収集・蓄積・分析・報告することで、経営上などの意思決定に役立てる手法や技術のこと。(Wikipediaより)
    • R
      (無料の統計解析ソフト。R言語で記述して使います。世界中の統計学者やデータサイエンティストが利用しています。)

その他にもさまざまなツールが開発され世の中に出てきています。

このコラムでは、この中から気軽に・簡単に・すぐにデータ分析が始められるものを選びました。
それはRです。Rはインターネットから無料でダウンロードできます。
さらに今回は、Rをより便利に使うためのR Studioというソフトもダウンロードしたいと思います(こちらも無料のソフトです)。

Rのダウンロードとインストール

Windowsをお使いの方向けに説明します。
※Mac、Linuxやその他のOSをお使いの方はこちらをご覧ください。
http://blog.katty.in/1262 (Mac向け)
http://bio-info.biz/tips/r_install_linux.html (Linuxやその他OS向け)

  1. http://cran.md.tsukuba.ac.jp/bin/windows/base/ にアクセス。
  2. 「Download R 3.1.2 for Windows」をクリック。
  3. ダウンロードしたファイルを実行。
  4. 下の画像の「コンポーネントの選択」になるまで「次へ」をクリック。
  5. 「コンポーネントの選択」画面において、お使いのPCの種類に合わせて32-bit Files64-bit Filesのどちらかにチェック。Core FilesMessage translationsのチェックは外さない。※PCのビット数の確認は次の方法で確認できます。「スタート」→「コントロールパネル」→「システムとセキュリティ」→「システム」と進むと、”システムの種類”に32ビットか64ビットが記載されています。
  6. その他の設定はすべてデフォルトのまま進めていくとインストールが開始※途中で管理者用の入力画面が表示された場合は、指示に従い入力して下さい。
  7. 完了画面が表示され、「完了」をクリックするとインストール完了
    ※デスクトップにRのアイコンが生成されていることを確認ください。

アイコンがない場合は、スタートメニューの「すべてのプログラム」にある「R」というフォルダを開いてください。その中にRがあります。

起動してみると、以下のような画面が表示されます。

これで無事Rのインストールが完了しました。右上の×印で終了します。その際「作業スペースを保存しますか?」と表示されますが、「いいえ」を押してください。

続いてR Studioのダウンロードとインストールです。

R Studioのダウンロードとインストール(Windowsをお使いの方向け)

※Windows・Mac・Linuxいずれも以下の手順でダウンロードとインストールができます。

  1. http://www.rstudio.com/products/rstudio/download/ にアクセス。
  2. お使いのPCに沿ったバージョンのリンクをクリック。
  3. ダウンロードしたファイルを実行。
  4. すべてデフォルト設定のまま「次へ」をクリックしインストールを実行。
  5. 完了画面が表示され、「完了」をクリックするとインストール完了。

デスクトップにR studioのショートカットアイコンは生成されません。Rと同様に、スタートメニューの「すべてのプログラム」にある「R Studio」というフォルダを開いてください。その中にR Studioがあります。

R Studioを使う場合、R本体は開く必要がないので、Rのショートカットはデスクトップから削除しても構いません。しかし、R Studioを使用するためにはRがインストールされている必要があるので、Rそのものはアンインストールしないよう注意してください。

さて、R Studioを起動してみましょう。

カーソル位置のマークをクリックすると次の画面になります。

左上:エディタ画面
Rの命令文(コード)を記述するスペースです。記述したコードはCtrl+Enterで実行できます。
左下:コンソール画面
コードの実行結果を表示するスペースです。
右上:ワークスペース画面
エディタ画面で実行したコードの履歴や、作成したオブジェクトが表示されます
右下:サブ画面
グラフやヘルプが表示されます。

それでは試しに1+1を計算してみましょう。
左上のエディタ画面に 1+1 と記述し、Ctrl+Enterを押してください。すると左下のコンソール画面に結果が表示されます。

いかがでしょうか。
その他、簡単な計算を実行するRのコードは次の通りです。

通常の四則演算と同様に、掛け算と割り算が優先されます。足し算と引き算を優先する場合は括弧で括ります。

これでR Studioを計算機として使えるようになりました。
終了する場合は右上の×で閉じます。終了時に「Save workspace image to ~/.RData?」と表示された場合、基本的には「Don’t Save」を選択します。
では実際に記述コードはどうなるのかというと、次回起動時にはエディタ画面に残っています(うれしい!)。
しかし、実行結果までは保存されません。前回実行した結果を再度出力する場合には、再びコードを実行する必要があります。
今回はここまで!次回は実際にR Studioを使用して、簡単な計算やデータ処理をしていきたいと思います。


日本最大級のITビジネスコミュニティ アサインナビ