データサイエンス・マーケティング NOTE

DATASCIENCE / MARKETNG NOTE

基幹統計(9省庁・56統計)とデータ収集時の留意事項

Posted by tanabe on 2019/02/03 11:00:00

 統計調査の問題が、頻繁に取り上げられるようになりました。基幹統計とは、統計法に基づいて調査や収集される統計のことです。なぜ統計が重要であるのかや自身でデータを収集する場合には何に気をつければ良いかを整理しました。 

目  次

1.統計は国の健康診断

2.統計の種類について

3.データ収集時の留意事項

 


1.統計は国の健康診断

 統計とはどのようなものでしょうか。広辞苑には、下記のように記載されています。

集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかに すること。また、その結果として得られた数値。

 何となく、わかるようでわかりにくいです。

 では、自分自身に置き換えてみましょう。生まれて、すぐ私たちは、体重や身長を測ります。この体重や身長は、恐らく亡くなるまで測り続けます。これは、健康に育っていることや老化の指標になるからです。他に、どのような計測をするでしょうか。例えば、健康診断では、視力、血圧、尿検査など、体力測定では、50m走、立ち幅跳び、シャトルランなども行われます。もっと細かく自分のことを知りたければ、血液検査、レントゲン、CTスキャンなど、枚挙にいとまがありません。

 では、もう少し範囲を広げてみましょう。あなたの家族はどのような構成ですか。

 人数、親・兄弟、年齢、職業・学校、さらに、それぞれの具体的な身体的特徴、趣味や学歴、ペットといったところでしょう。同じように、あなたの住んでいるまち、自治体、国はどのような構成でしょうか。

 私たちが住んでいる日本は、このようなことを教育で学び、その気になれば誰でもデータを入手できます。しかし、世界中には、このようなデータがわからない国々が圧倒的に多いのが現状です。

 なぜ、日本は誰でも国の統計を知ることができるのでしょうか。それは、民主主義の国だからです。民主主義では、国のことを誰でも知れることが非常に重要です。逆に、社会主義の国では、国民に知られたくありません。それは、計画経済だったり、独裁的な法体系になっているため、国民が知りすぎると、余剰な財産があれば国家転覆を招き、独裁を知られないようにデータをとらないこともあります。

 このように、統計を法律の下におき、収集し公表することは、民主主義国家のとって根幹であると言えます。


2.統計の種類について

 さて、統計法に定められた統計の種類は、下表の9省庁56種類で収集され公表されています。(出典:基幹統計一覧

 身体測定、体力測定、健康診断に当てはめてみると、身体測定は、国勢調査、法人企業統計、住宅・土地統計、学校基本統計など、体力測定は労働力統計、小売物価指数、家計統計、民間給与実態統計など、健康診断は、個人企業経済統計、全国消費実態統計、人口動態統計などでしょう。

①内閣府

国民経済計算(注1)

②総務省別

国勢統計
住宅・土地統計
労働力統計
小売物価統計
家計統計
個人企業経済統計
科学技術研究統計
地方公務員給与実態統計
就業構造基本統計
全国消費実態統計
社会生活基本統計
経済構造統計  (注2)
産業連関表  (注3)(注4)
人口推計  (注3)(注5)

③財務省別

法人企業統計

④国税庁別

民間給与実態統計

⑤文部科学省別

学校基本統計

学校保健統計

学校教員統計

社会教育統計

⑥厚生労働省

人口動態統計
毎月勤労統計
薬事工業生産動態統計
医療施設統計
患者統計
賃金構造基本統計
国民生活基礎統計
生命表  (注6)
社会保障費用統計  (注6)

⑦農林水産省

農林業構造統計
牛乳乳製品統計
作物統計
海面漁業生産統計
漁業構造統計
木材統計
農業経営統計

⑧経済産業省

工業統計
経済産業省生産動態統計
商業統計
ガス事業生産動態統計
石油製品需給動態統計
商業動態統計
特定サービス産業実態統計
経済産業省特定業種石油等消費統計
経済産業省企業活動基本統計
鉱工業指数  (注7)

⑨国土交通省

港湾統計
造船造機統計
建築着工統計
鉄道車両等生産動態統計
建設工事統計
船員労働統計
自動車輸送統計
内航船舶輸送統計
法人土地・建物基本統計

(注1)国民経済計算、産業連関表、生命表、社会保障費用統計、鉱工業指数及び人口推計は、他の統計を加工することによって作成される「加工統計」であり、その他の統計は統計調査によって作成される。

(注2)経済構造統計は、総務省の外、経済産業省も作成者となっている。

(注3)国民経済計算、産業連関表、生命表、社会保障費用統計、鉱工業指数及び人口推計は、他の統計を加工することによって作成される「加工統計」であり、その他の統計は統計調査によって作成される。

(注4)産業連関表は、総務省の外、内閣府、金融庁、財務省、文部科学省、厚生労働省、農林水産省、経済産業省、国土交通省及び環境省も作成者となっている。

(注5)人口推計は、平成28年10月18日に基幹統計として指定された。なお、この指定は平成29年度に公表するものから効力を生じることとしている。

(注6)国民経済計算、産業連関表、生命表、社会保障費用統計、鉱工業指数及び人口推計は、他の統計を加工することによって作成される「加工統計」であり、その他の統計は統計調査によって作成される。

(注7)国民経済計算、産業連関表、生命表、社会保障費用統計、鉱工業指数及び人口推計は、他の統計を加工することによって作成される「加工統計」であり、その他の統計は統計調査によって作成される。

 


3.データ収集時の留意事項

 統計調査は、日本国民だけではなく、日本に住んでいる外国人も対象に行われています。全国のデータを収集するのに、多大な時間と莫大な費用を捻出しています。せっかく使っている時間とお金ですので、私たちも協力しながら、有効な統計を整備していきましょう。

 では、自分でデータを収集するには、どのようなことに留意すれば良いでしょうか。

①恣意的な偏りをなくすこと

 データ収集を24時間365日することは、ほとんど不可能です。ですから、健康診断のように、その瞬間を切り取る場合が多くなります。健康診断日がわかっていると健康診断に合わせて体重を減らしたり、酒量を減らしたりしていませんか。これが、恣意的な偏り、悪く言えばマニピュレーション=操作です。データを収集する前に、恣意性がないか胸に手をあててみましょう。

②全数調査が出発点

 私たちは、データ収集の出発点は全数調査だと思っています。テレビの視聴率が良い例で、私がみてないのに、なぜあの番組の視聴率が高いのか、と思ったことはありませんか。全てのテレビから今見ている番組の周波数を取得できる装置をテレビにつければ、この視聴率問題は技術で解決できそうです。しかし、ほとんどの調査は、技術では解決できない場合が多いです。では、どれだけ全数調査の結果に近づけられるか、これがデータ収集の極意であり、統計学で最も重要な部分です。

③調査主体の信頼性を高める

 実は、データを集める場合、誰にデータを提供するかでデータの信頼性が変わります。私たちは金融機関に所得を知らせるときは、◯◯万円と丸まった数字を教えますが、税務署には円単位で報告します。特に、足切りされているデータは、データの集計が難しくなります。足切りされているデータは、連続数として扱えないので、集計できません。調査主体に何らかの法的な縛りがあるほど、統計も信頼性が高くなります。

④抽出調査結果の信頼性

 ほとんどの調査は、抽出調査=サンプリング調査です。この場合、今日の調査結果と明日の調査結果は、高い確率で異なります。調査は、調査すること自体がすでに調査結果を歪めてしまいます。例えば、野生生物の調査は、調査隊が生息域に入った途端、生息域を壊しています。調査は、常に、センシティブなものであることを忘れずに、調査しなければいけません。したがって、抽出方法、調査方法、集計方法、分析方法、全ての調査フェーズで細心の注意を払う必要があります。

その他、調査や分析の留意点は、下記を参考にしてください。

 最後に、国には非常に高度な統計ノウハウを持っている部署がありますから、彼らのチェックをうけながら、データ収集、統計整備していくことがいいでしょう。統計は、民主主義国家の根元です。

 

Topics: データサイエンス, データ分析, 統計