TRANS.Blog

経営(ヒト・モノ・カネ)に関して定量的な分析を発信する 株式会社トランスのブログ

なぜ「相関係数」を意思決定に使ってはいけないのか?

今回はデータ分析に関する話です。

 

弊社がクライアントに提供する分析レポートでは
相関係数
を原則使っていません。
(どうしても入れてほしいといわれた場合は別ですが。)

 

「平均」の次に認知度が高いと(個人的には)感じる「相関」ですが、実は、かなり扱いにくい指標であることをご存知でしょうか?

 

HRや経営の会話で
・「要因A」は「業績」と【相関】があるから、Aの改善が必要だ!
・「要因B」は「要因C」より【相関係数が高い】から、Bを優先課題としよう
という内容を聞くことがあるのですが、個人的にはかなり不安に感じることも多いです。

 

なぜ「相関係数」を使わないのですか?とクライアントから聞かれることがあるので、今回は「相関係数」を深堀してみます。

 

 

そもそも相関係数とは?

相関係数
【2つの確率変数の間にある線形な関係の強弱を測る指標】
です。(出典:Wikipedia
※細かい話はいろいろあるのですが、省略します。

 

相関係数の値と、分布を可視化すると、以下のようになります。(学校の教科書で見たことがある内容かもしれません。)

相関係数=1 」は【2つの変数に、完全に線形の関係性ある】
相関係数=0 」は【2つの変数に、関係性がない】
相関係数=-1」は【2つの変数に、逆の線形の関係性がある】
という状態を示す指標となっています。

 

f:id:trans-inc:20190813124539j:plain

(出典:Wikipedia

 

この分布の相関係数は?

さて、では、以下のグラフ(A-1)相関係数はいくつでしょうか?

f:id:trans-inc:20190813130828j:plain





 

 

 

 


このグラフ(A-1)は、相関係数≒0.9(強い相関がある)です。

 

では、次にA-1のグラフに2点(左上と右下)を加えた以下のグラフ(A-2)は、どのくらいの相関係数でしょう?

 

f:id:trans-inc:20190813130922j:plain

 

 

 

 

 

 

 

 


実は、A-2は、相関係数はほぼ0】です。2点加えただけで、「0.9」という強い相関係数が「0」になってしまいました。

 

統計的に有意な差はあるのか?

同様に、B-1(全て50)とB-2(左端を49に、右端を51に1つだけずらす)の相関係数はいくつでしょうか?

f:id:trans-inc:20190813131332j:plain

 

 

 

 

 

 

 

 

B-1(全て50)は、相関係数≒0】 です。一方、B-2(49と51が1つずつ)は、相関係数相関係数≒0.7】です。

ほぼ「相関のない結果」の2点を少しずらしただけで、「強い相関(0.7)がある結果」となります。

 

統計に詳しい方は、
「いやいや、これだと【統計的に有意ではない】のではないの?」
と思われたかもしれません。

が、実はB-2のグラフは、“統計的有意に相関がある”といわれる結果です。(無相関検定でp=0.006)
※厳密には「相関がないとは言えない」という表現なのですが、略して「統計的に相関がある」といわれる場合も多いです。(言い方によってだいぶ印象が変わる気もしますが。)

 

私の主観ですが、実運用において、相関の検定(無相関の検定)は、多くの場合「相関 がないとは言えない」という結果になるため、相関における検定結果はあまり勘案しないようにしています。

平均の検定(t検定)は、勘案することが多いです。「t検定」と「無相関の検定」を混同しやすいというのも、「相関係数」が扱いにくい1つの理由です。

 

「正の相関」と「負の相関」

以下のグラフは、「正の相関」「相関なし」「負の相関」のいずれでしょう?

f:id:trans-inc:20190813142019j:plain



 

 

 

 


答えは「負の相関(相関係数=-0.33)」です。

ちなみに以下のグラフのように、右上と左下の2点を消すと「正の相関(相関係数=0.42)」となり、正負が逆転します。

f:id:trans-inc:20190813142157j:plain

 

「正の相関」がある場合と「負の相関」がある場合には、意思決定の内容が大きく変わりますが、わずかなデータの違いによって、正負も変わってしまう可能性もあるため注意が必要です。

※個人的には、実運用でこの結果が出た場合には、【分布を目視で確認して】「関係性はない」(または他の軸での分析が必要)と結論づけます。

 

 

「相関」と「因果関係」の違い 

最後に、「相関」と混同されがちなモノとして、「因果関係」を紹介します。

次の結論は正しいでしょうか?

 

「エンゲージメント」は「業績」と相関係数が高い。
だから「エンゲージメント」を高めれば「業績」は高まる!

 

 

 

 

一見、正しそうな感じもします。では、次の結論の場合だとどうでしょうか?

 

「従業員数」は「業績」と相関係数が高い。
だから「従業員数」を増やせば「業績」は高まる!

 

 

 

こちらは、やや疑問が出そうな結論です。ただ、1つ目と論理的な構造は同じです。

 

この2つの結論は、「相関関係はある」が「因果関係があるかはわからない」という例になります。(もちろん相関係数以外のデータで証明できれば、因果関係があるかもしれません。)

 

因果関係は、「Aが原因で、Bが結果として起こる」関係のことです。一方、相関関係は「AとBに関係がある」ことを示しているだけなので、「相関関係があっても因果関係があるかはわからない」という状態が起こります。

※「従業員数」が多い企業は「業績(売上高)」も高い企業が多い(=相関関係はある)ですが、ほとんどの企業で「従業員数」をやみくもに増やしても「業績(売上高)」が高まるとは一概には言えない(=因果関係があるかはわからない)ため、「相関関係はあるが因果関係があるかはわからない」例になります。

※エンゲージメントに関しては以下のの記事でも分析しています。
「従業員モチベーション」と「業績・退職」は関係するのか? 

 

 

ただし、「相関係数が高い」と聞くと、どうしても「因果関係がある」ように感じてしまう人も多いため、意識せずに「相関係数」を用いると、意思決定をミスリーディングしてしまう可能性があると考えています。

 

 

まとめ

相関係数」が、取り扱いの難しい指標であることが伝わりましたでしょうか?

特に
・1つの点を追加・削除するだけでも、「相関係数」は大きく変わることがある
・「相関係数の高さ」と「因果関係」は異なる

ということは、意思決定の際に考慮していただけると嬉しいなと思います。
(HR領域はサンプル数が少ないことが多いため、特に影響を受けやすいと考えています。)

 

もちろん、特定の条件を満たしたデータであれば、相関係数を使える場面も多くあるのですが、誤解される可能性も高いため、データを解釈するプロがいない限りは、「相関係数」は意思決定にはあまり使わないほうが安全かなと考えています。


※余談ですが、「論文でも51%が統計を間違えて解釈している」という研究結果もあるそうです。それなりにデータを扱っているはずの研究者でさえ、間違えた使い方をしてしまうこともあるのが、データ分析・解釈の難しさかなと思います。

 

みなさまの会社では、重要な意思決定を、データを使って正しく行えていますか?

 


※弊社では、データ分析結果(「相関係数」も含む)について、その妥当性の確認・ダブルチェックのお手伝いもさせていただいておりますので、ご興味がある方は、こちらからお声がけいただければ幸いです。

 

※執筆者:塚本鋭

東京大学・大学院において、機械学習や大規模シミュレーションに関する研究に従事。人工知能学会研究会優秀賞・東京大学工学系研究科長賞(総代) 等を受賞。 大学院修了後、株式会社野村総合研究所コンサルタントとして入社し、ICT・メディア領域を担当。2013年1月より株式会社クラウドワークスに8番目の社員として参画し、2014年12月に上場を経験。データ分析・産官学連携を軸としながら、B2B事業立ち上げ、カスタマーサポート部門立ち上げ、子会社副社長等を歴任。2018年より現職。