データサイエンスセミナー開催レポート Vol.3「シリコンバレーに学ぶ日本のデータサイエンスの現状と未来」

2017年8月に開催された西田氏による「データサイエンスセミナー開催レポートVol.1 シリコンバレーのDS」に引き続き株式会社エル・ティー・エス所属データサイエンティストである渡辺翔太氏が日本におけるデータサイエンスの現状とシリコンバレーとの比較、そして日本のデータサイエンスビジネスにおいて今後必要になってくるポイントを解説しました。

前回のセミナーではシリコンバレーの現状を解説していただきましたが、今回は日本のデータサイエンスの現状と未来、そしてこれからのデータドリブンな時代に本当に必要なことが説明されました。セミナーの内容をご紹介します。

渡辺翔太 氏

株式会社エル・ティー・エス コンサルタント/データサイエンティスト
エル・ティー・エスでコンサルタント・データサイエンティストとして活動。
お客様のデータを分析することで課題発見や課題解決のコンサルティング、仕組みづくりを専門とする。
最近では機械学習や人工知能の活用の支援も。自動車メーカーの品質管理や製造ラインのパラメータ予測、そしてマーケティングの戦略立案のプロジェクトに従事。

データサイエンスとは

現在日本においてビジネスのデジタル化を実施・検討している企業の割合が9割を超えている(売上高1兆円以上の企業90.4%)というデータがあります。ただし、その内データ分析基盤が存在する企業は4割未満です。データ活用のニーズはあるものの、データ分析の基盤が整っている企業は少ない。これはデータサイエンスのビジネスチャンスだと我々は考えています。

データサイエンスビジネスとは、データを情報に変換することによってビジネス上の課題解決をおこなう活動です。例えば単なる数字が集まったものを可視化する(グラフ化など)ことで異常値の検出や傾向の分析による現状の把握ができ、意思決定が可能となります。

私が携わった製造業のプロジェクトでは不良品が起こる要員をデータから分析し、要因特定をデータサイエンスによっておこないました。マーケティング活動においてのユーザーのセグメンテーションにデータを活用して知見を獲得することもあります。最近では数値予測や画像の解析分類による作業の効率化・自動化がデータサイエンスによっておこなわれています。

実際にデータサイエンスがどのようにおこなわれているのかを説明すると、

  1. まずはどのようなデータがどれだけあるのかなどのデータ収集状況を確認します。
  2. データが足りない時にはそのデータを探します(データ探索/社内システム調査)その際IoTやオープンデータ経由で新規のデータをとってくることもあります。
  3. 集まってきたデータに対してそれが分析に耐えられるだけの品質があるのかどうかを確認します。実際によくやる作業としては欠損値や表記ゆれ、異常値と外れ値有無の確認などです。
  4. データクレンジングという表記ゆれの統一や異常値の除外、分析用のデータ整理をおこないます。

ここまでやって初めてデータ分析ができるようになります。

データ分析自体は後述しますが大きく3つの領域 - 指標を可視化する分析、知見を得る分析、そして自動化・効率化のための分析)に分けられると思っています。

「指標(メトリクス)を可視化する分析」では売上など決まっているものがあればそれを可視化しますが複数の数値を組み合わせたり、機械学習の手法を用いたりして新たな指標を作成することもあります。
「知見を得る分析」では要因分析やクラスター分析による状況の把握をおこないます。
そして「自動化・効率化のための分析」において予測分類モデルを構築し、その精度を検証します。
最終的にはデータ分析した結果を活用し施策の立案、業務への展開定着、またはモデル化を通じたシステム化などへと繋げていきます。

日本のデータサイエンスビジネスの現状

データサイエンスが何かを説明しましたが、ここで日本でのデータサイエンスビジネスモデルを説明します。大きなビジネスモデルの分類軸としては「社内で内製化するか、外注するか」というものがあります。企業内で分析部門の立ち上げなどをしてデータサイエンスを内製化し、データ活用人材の採用・教育・育成やツールの導入を通じてデータサイエンスを自社内でおこなうケースはまだ少なく、現在の日本では圧倒的にデータサイエンスを外注しているケースが多いといえます。]

外注のケースでは受注したデータ分析専門企業やコンサルタント企業が要望をヒアリングしデータ分析を実施、その結果報告において示唆出しや提案をおこないます。

これらデータサイエンスのプロジェクトの目的に関して言えば、大きく「プロフィットサイド」「コストサイド」2つの由来に分けられると考えています。
プロフィットサイドの目的は売上をどんどん伸ばしていくようなものを指していて、売上利益の拡大や商品・サービスの改良・開発、市場開拓、顧客接点からのブランド強化など売上に直接かかわってくるような活動を伴います。対してコストサイドの目的には原価、人件費の削減や業務の効率化などの費用を削減する目的があります。

ビジネスニーズとしてはプロフィットサイドの方が大きく、またデータサイエンスの性質上プロフィットサイドのプロジェクトの方が大きな効果が見込めます。ただ、実際日本におけるデータサイエンスプロジェクトの数ではコストサイドの方が多く、私には需要と供給のバランスが崩れているように思えます。
この背景にはプロフィットサイドに比べてコストサイドのほうが投資対効果(ROI)の設定がしやすいと企業の担当者が考えていることがあります。プロフィットサイドではデータ分析のリターンとしての効果(見込み)の提示が求められますが、そもそも効果を表す指標であるKPIが明確でないため効果見積りとしてのROIを出すことができないのです。

コストサイドに関しては業務の中でKPIが明確に決まっていくので(また、コストの上限も決まっているため)ROIの最大値が見積もりやすく、企業側でプロジェクト化しやすいのではないでしょうか。もっとも、本来データサイエンスプロジェクトのROIは用いるデータの品質やデータ手法を考慮したうえで設定されるべきなのですが、実際はそれらが考慮されていないケースが多いように感じます。
また、決裁権を持つ経営者がデータを活用し解決すべき課題を明示していないために現場側が有効な目的を設定しにくく、簡単にプロジェクト化できるコストサイドのデータサイエンスプロジェクトがそのため多くなっているのではないでしょうか。

まとめると、多くの日本企業ではデータ分析の基盤が現状ではあまり整備されておらず、また目的を明確にしていないため安易なコストサイド目的の外注プロジェクトが多くなっているといえます。日本のデータサイエンスビジネスの現状を踏まえて今後どうしていかなければならないのかをこれから話します。

日本とアメリカの比較

今後のあるべきデータサイエンスビジネスを考える際に有効なのは日本とデータサイエンスの先進国との比較だと考えています。今回は日本とアメリカ(シリコンバレー)との違いをみていきます。

まずデータ分析基盤に関してアメリカにはデータ分析の文化が根付いていて、エンジニアやハッカーと呼ばれる高いITスキルを持った人たちが必要に応じてデータを取り出せる環境が整っています。日本ではデータアクセスは情報システム部門や開発チームの管理となるところが多く、都度依頼してデータにアクセスしていることが多いのではないでしょうか。データサイエンスプロジェクトは自社内に分析組織を持つアメリカ企業では内製化が進んでいて、積極的な分析スキルをもつ人材の採用と育成によって担保されています(日本において外注が多いことは前述のとおりです)。目的意識に関しても積極的に売上拡大につながるデータ分析の活用がおこなわれているのはアメリカで、明確にKPIを設定したうえでその指標に対する成果を高めていくという考え方がしっかりと認識されています。

意思決定のプロセスにもアメリカと日本に大きな違いが見られます。アメリカでは「リーンスタートアップ」と呼ばれる高速なトライ&エラーを繰り返しで意思決定を進めますが、日本では経営層からの要求を受け予算確保のための稟議や説明資料作成などを通して起案から数か月~後にプロジェクトがスタートします。

また、アメリカではデータサイエンスのために使うアルゴリズムがオープンで誰でも使えるようになっていますが、日本では作ったアルゴリズムは共有せずに自社製品・サービスに組み込むことが多いと思います。分析ツールにおいても、よさそうなものはまず利用してみて、ダメであればすぐに変えるアメリカに対して日本では利用開始までに綿密な調査・比較・選定をおこない、一度導入したものは使い続けるところがあると感じます。

これらの違いを踏まえて言えることは、上記の日本におけるビジネス上の特徴を理解したうえでデータサイエンスビジネスを進める必要があるということです。

これからのデータドリブンな時代に本当に必要なこと

外注中心でお役所的な意思決定プロセス、そしてKPIの不明確さやITスキル不足を日本のビジネスの構造と捉えたうえで、お客様を理解し、目的を明確に設定し、そして課題解決までのシナリオに従って経営層と現場サイドを巻き込んでプロジェクトを進めていくことが重要です。

日本のデータサイエンスビジネスで重要なこと

  • 日本のビジネスモデルを理解すること
  • お客様の業務とKPIをきちんと理解すること
  • 課題解決までのシナリオを明確にすること
  • 経営層と現場サイドを巻き込んだコミュニケーションを心がけること

ただ、これら①~④はこれまでのIT導入やシステム開発のプロジェクトにおいても昔から散々言われてきたことでもあります。データサイエンスビジネスにおいても重要な点は同じなのです。これらを押さえてうえでビジネスを推進することが重要です。

ただ、それでもデータサイエンスの文脈で押さえておきたいポイントはいくつかあります。
まずは業務を理解して課題要望要求目指す姿を整理しKPIを設定すること。そしてデータを活用して解決できる課題を特定し、その課題を細分化すること。課題が特定されたらそれら課題が解決されるまでのシナリオとプロセスを明確にすること。その際には目的が指標を見えるかすることなのか、知見を得ることなのか、もしくは自動化・効率化のための分析なのかを決めて認識していく必要があります。コミュニケーションを通してこれらをおこなっていくことがデータサイエンスのプロジェクトを成功させるポイントだと思います。

日本におけるデータサイエンスビジネスの今後の予想としては、企業におけるデータ分析基盤が整っていくこと、そしてデータサイエンスプロジェクトの目的がコストサイドからプロフィットサイドにシフトしていくことが予想されます。また、情報基盤の整備が進みデータへアクセスがしやすくなり、またオープンなアルゴリズムが増えることにより誰でもデータ分析ができる環境へと変わっていくことが考えられます。その際にツールや手法のトレンドを積極的に取り入れていくことが重要です。さまざまなツールを使うことによって知識がなくてもデータサイエンスができるようになってくるからです。

これからのデータドリブンな時代に本当に必要なこと

  1. 日本のビジネスのやり方を理解すること
  2. これまでのIT導入やシステム開発で重要だったことを再認識すること
  3. データサイエンスに必要なツールや手法を積極的に取り入れていくこと

以上が今回の「日本におけるデータサイエンスの現状と今後」の内容となります。ご参加いただきありがとうございました。

▼データサイエンティスト向け記事多数!
アサインナビマガジン-データサイエンティスト記事一覧


日本最大級のITビジネスコミュニティ アサインナビ