データサイエンス・マーケティング NOTE

DATASCIENCE / MARKETNG NOTE

エンジニア必読:8種類の決定係数と相関分析

Posted by tanabe on 2018/11/13 16:00:00

相関分析は、数理モデルの確からしさを確認するために、使われる分析方法です。特に、エクセルが普及してからは、簡単に相関係数をもとめることができるようになりました。しかし、その相関係数が誤用されているのをみかけます。このような誤用があるということは、統計学を勉強していないことが簡単に露呈していますし、その後の分析も精緻に分析されているのか怪しくなってしまいます。間違いやすい理由、理論的な違い、相関係数の判定についてまとめましたので、技術者は必ず、エクセルでグラフを作ることがあるような方もご一読ください。

1.決定係数に着目した誤解の発生

・エクセルの功罪

・決定係数の種類

2.相関係数Rについて

・相関係数とは

・相関係数の強弱

3.まとめ

 


1.決定係数に着目した誤解の発生

・エクセルの功罪

エクセル:Microsoft-Excelが、ほぼ主流の表計算ソフトになって20年以上が経ちました。エクセルは、表計算にとどまらず、グラフの描画、数理モデルの推定など、軽作業から難解な数値計算まで幅広いニーズに対応した素晴らしいソフトウェアです。

しかし、エクセルは、その優秀な機能がゆえに、背景にある理論やアルゴリズムがわからなくても、結果は出せてしまうという側面があります。

多くの人が、統計学をつかった手法によって分析する機会を得ましたが、その誤用も増えてしまいました。

・決定係数の種類

Kvalseth(1985)では、決定係数には、8種類も定義されていることが示されています。このうち、Microsoft-Excelのグラフで使用されている決定係数は(1)の計算式が使われています。(2)~(8)までの決定係数は、(1)と少しづつ定義が異なることがわかると思います。恐らく、計算結果が小数点以下1位のレベルで変わってくることは少ないと思いますが、どの決定係数で計算されているのか、今一度、使っているソフトを確認してみましょう。

R2

 


2.相関係数Rについて

・相関係数とは

相関分析は、2つの変数間に線形の関係があるかどうかを確かめる方法です。その計算式は次式で表され、σxyは共分散、σx、σyは各変数の標準偏差を示しています。

{\displaystyle \rho ={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}}

相関係数と回帰分析における決定係数は異なるものです。理論上、同値になるという解説もありますが、決定係数の定義によりますので、エクセルで計算する場合には異なることに注意が必要です。

なお、相関分析は、因果関係を分析するものではありませんので、因果関係の分析には回帰分析などを用いましょう。

・相関係数の強弱

では、相関係数の強弱について、考えてみましょう。

統計学が解析的である以上、その計算が、連続なのか、非連続なのかといったことも念頭におかなければなりません。相関係数は、共分散、標準偏差を扱いますので、連続的な数で示されます。ここで、データサイエンティストやエンジニアが悩まされるのは、その値の確からしさです。いくつ以上なら確からしいのか?これは理論的に応えの出せない問題です。あえて、噛み砕いて書くとすれば、「各変数のばらつきの積に対する共分散をどの程度までなら、相関があるものと仮定するのか」ということです。

ここで、出展としてよく登場するのが、GUILROD(1950)に書かれている基準です。

0.2 より低い: ほとんどなし: slight almost negligible relationships
0.2 - 0.4 : 弱い相関: low correlation
0.4 - 0.7 : 中程度の相関: moderate correlation
0.7 - 0.9 : 強い相関: high correlation, marked relationship
0.9 - 1  : 非常に強い相関: very high correlation, very dependable relationship

 

top

value-2


3.まとめ

今回は、回帰分析で用いられる決定係数の種類、類似の手法として用いられる相関分析について書きました。

決定係数や相関分析は、難しくないだけに、多用されています。あなたが、当たり前のことだと思っていても、周りのエンジニア、クライアントは知らないかもしれません。さらには、統計学が全くわからない人も、あなたが算出した結果を信用して意思決定をしているかもしれません。

そして、結果に閾値を決めるのは、意思決定することですから、これについても十分な議論が必要です。なんとかく決めるのではなく、常に、根拠や定義を確認しながら、実務に臨むことがエンジニアの正しい心構えです。

 

出 展

 Kvalseth 1985a. Cautionary note about R2. The American Statitian 39, 279-285.

Fundamental Statistics In Psychology And Education J. P. Gullford

  


 

オススメ記事

Topics: データサイエンス, 統計, 交通計画