データサイエンス・マーケティング NOTE

DATASCIENCE / MARKETNG NOTE

データとはいったい何か?

Posted by tanabe on 2018/10/04 17:00:00

データとはいったい何か?

みなさんが、データといって思い浮かべる「形」はどんな形でしょうか?

私たちがお客様からデータ分析を依頼される際、困ることがあります。

それは。。。

「データがあるので、これでお願いします。」

「データ」と一言でいっても、ある人はエクセルデータをいい、別のある人はデータベースに格納されているものをいい、ある人はpdfのデータをいいます。

どれも、デジタル化されているデータという広い意味では、「データ」であることには間違いありません。

ただ、私たちがそれをすぐに分析できるかどうかという意味では、これらの「データ」には大きく違います。

そこで、データについて少し整理してみましょう。

  1. 構造化 or 非構造化

データの分類には構造化データと非構造化データという分類があります。

data_bunrui

構造化データ:

帳簿類である経理データや購買データ、販売・在庫データなど、データベースとして管理できるデータ。これを管理するには汎用のデータベースシステムなどを利用すれば、簡単に整理することが出来る。構造化データにはERP、SCM、CRMなどのデータ、メインフレームのレコードなど、RDBで管理されたデータが代表的なもの

非構造化データ:

 データベースなどで管理しやすい「構造化データ」に対するもので、申込書、契約書や報告書などの紙の文書、PCで作成されたオフィス文書、Eメールなどの通信文、Webコンテンツ、音楽・写真・映像などのデジタル・コンテンツ、ファックス、スキャニングで得られた電子化文書などのデータをいう。

出典:社団法人日本画像情報マネジメント協会/文書管理用語辞典

 構造化データは、比較的扱いやすいですが、問題は非構造化データです。非構造化データにも、①規則性のある非構造化データ、②規則性のない非構造化データがあり、規則性のある非構造化データがあり、規則性のある非構造化データが非構造化データが非常に多くなってきており、分析できる場合が増えてきました。

続いての分類方法は。。。

  1. 顕示選好データ or 表明選好データ

顕示選好データ:

 英語では、Stated Preference(述べられた選好)と表され、SPデータと呼ばれます。述べられたデータですので、何かしらのバイアスを含んでいたり、作為があったりする可能性が高いデータです。

 しかし、データの取得は非常に柔軟であるために、ヒト対する調査で非常に多くのデータが取得されています。

表明選好データ:

 英語では、Revealed Preference(観測さられた選好)と表され、RPデータと呼ばれます。観測されたデータですので、誤差を含んでいたり、そのデータの原因が曖昧になる可能性が高いデータです。

 しかし、取得されたデータは事実そのものであるために、信頼性が高く、近年では観測・計測技術の進展によって非常に多くのデータが取得されています。

 顕示選好データは、計測器をつかって計測される場合が多いので、多くのデータを扱うことができますが、計測器のエラーや故障といったリスクがあります。一方、表明選好データは、主にアンケートなので、様々なバイアス(調査上の偏重)が多くなっています。

※バイアスの種類については情報管理LOG

blog_bias世界中の企業においてビッグデータが経営に大きく関わる場合も多くなっていました。

例えば、格安航空会社(LCC)は予約状況に応じて料金が変動しますし、保険会社も保険商品の設計に大規模なデータ分析を始めています。楽天amazonZOZOTOWNといったインターネット販売業もです。

データが本当にその本質をとらえているかどうかは、そのデータの出所をたどる必要があります。

もし、データ分析をお考えであれば、一度、そのデータが何なのか、を考えてみましょう。

そして、必要があれば、データ収集の方法から変えないといけないかもししれません。


 

オススメ記事

データの扱いについて何かご不明があれば、私たちでもお答えできることがあると思いますので、下記よりお問合せいただければ幸いです。

MS_CTA

Topics: データ分析, 統計