データサイエンス・マーケティング NOTE

DATASCIENCE / MARKETNG NOTE

データ分析初心者のための5STEP

データ分析が経営にとって非常に重要なことであるという多くの経営者が認識しています。

例えば、大阪商工会議所ビッグデータ活用研究会が実施したアンケート調査では、「今後、社内外の様々な情報(データ)を売上拡大や生産性向上など経営に役立てることへの関心度」について、「たいへん関心がある」が29.7%、「ある程度関心がある」が51.1%で、約8割の経営者が関心を持っています。

graph

 今後、社内外の様々な情報(データ)を売上拡大や生産性向上など経営に役立てることへの関心度 (単数回答)/大阪商工会議所

しかし、データ分析は、初心者にとっては気苦労が堪えません。

その一つの理由が、「やってみないと結果がわからない」ということです。やってみないとわからないなんて、実は統計の教科書的には許されないことです。

それは、どんな統計学の書籍にも、「仮説」について記載されているからです。

先日のブログ「マーケターが知っておくべき統計学サイト3選」に紹介したハンバーガー統計学でも「3.1チキンの売り上げは少ないのか」にも書かれていますので、もう一度、読んでみてください。

データを分析するということは、「仮説を立てる」ことからはじまります。仮説は、自分が分析前に現時点で考える結果ですから、「やってみないと結果がわからない」なんてことはありえないのです。

つまり、データを分析するということは、あなたの仮説を検証することですから、仮説がどれくらいの可能性で正しいのか、間違っているのかを科学的に示せばいい、ということです。

どんな結果がでようと恐れる必要はありません、仮説が正しくても間違っていても、なぜそうなったのかは考察しましょう。必要があればやり直せばよいだけですから。

データ分析のSTEPは次のとおり。仮説「風が吹けば桶屋が儲かる」を分析してみましょう。

STEP1「仮説を立てる」

仮説は、一般的に帰無仮説という仮説をたてます。

たとえば、「強風が吹いた日数」と「桶屋の売上」を分析するとします。この場合には、まず、「この2つには関係がない」という仮説をたてます。この「ない」ことを否定することで「この2つには関係がある」ことを検証するのです。

STEP2「データを集める」

データを集めます。

気象庁のHPから風速のデータを、桶専門店はないので、ホームセンターの売上を入手しましょう。この段階でこの2つだけのデータでいいでしょうか?仮説が間違っているかもしれませんし、他の要因があるかもしれません。気象庁のHPからは風向など他のたくさんのデータがあります。ホームセンターにいくのは行楽シーズン、運動会といった他の要因があるかもしれませんのでカレンダーやイベント情報、といったものも必要になってきます。データは、できるだけたくさん集めましょう。集められるだけ。多ければ多い方がいいです。

STEP3「データを整理する」

必要なデータが揃ったら、データを整理します。

どのようなスケールで分析しますか?風速は分や時間、売上は日かもしれません。これらを分析したいスケールにあわせて整理ます。例えば、日単位であれば、風速は日平均でしょうか、日最大風速でしょうか、考えられるだけの要因を洗い出して、整理しておきましょう。

STEP4「データを分析する」

いよいよ、データの分析です。

はじめは、基本統計量からです。平均値、中央値、最小値、最大値など。次に、ヒストグラムで可視化しましょう。

平均値と中央値は近い値ですか?ヒストグラムはきれいな釣鐘型(ベルカーブ)でしょうか。このきれいな釣鐘型をした分布を正規分布といいます。この後の分析は、正規分布を仮定して進められることが多いので、この段階で、各データがどのような特性をもっているのか分析しておきましょう。風速データは、風が弱い日が多く、強い日が少ないと考えられますので、正規分布ではないでしょう。そのようなことをこの段階で分析します。

その他、統計的な手法を用いて、分布の検証、相関、統計モデルを導出するなどの分析があります。

720px-Normal_Distribution_PDF.svg正規分布

STEP5「仮説を検証する」

最後に、仮説の検証です。

はじめに立てた仮説を思い出します。帰無仮説である「風が吹いても桶屋は儲からない」はSTEP4の分析課程で得られたp値によって検証できます。このp値に閾値を設けて、確かである、確かでないという検証は非常に難しい判断です。P値は連続数ですので、〇%確かであるというのが見解として正しいでしょう。それを採用するか否かが意思決定者に求められることはいうまでもありません。

データ分析をはじめてやる方、あまり慣れていない方は、このSTEPを目安にトライアルしてみてください。わからないことがあれば、なんなりとお問合せくださいませ。

MS_CTA


 

オススメ記事

 

 

Topics: データサイエンス, データ分析, 統計

この記事を書いた人: 田邊 慎太郎 on 2018/10/09 11:00:00

1974年生まれ。MARVELSUPPLY 代表取締役社長・MBA 大学卒業後、シンクタンク研究員を経て、同社を設立 データサイエンス分野を中心に活躍。 データに基づく分析によってお客様に理解・納得していただける 戦略や戦術の提案を心がけています。 小樽商科大学大学院ビジネススクール卒業