データサイエンスは必須です

データサイエンスは必須です

データサイエンスとは、社会に溢れているデータから、有益な価値を引き出す学問です。データを用いて様々な問題を検証したり、または問題点そのものを発見したり、これからの我々のすべてのビジネスや生活にとって必須の教養になりつつあります。このサイトでは、ますますどの分野にも需要が高まっているデータサイエンスを勉強していきましょう。

 

 

データサイエンスなど鳥取県の小規模企業には必要ないと言われます。確かにその通りかもしれませんが、私達は、上場企業の新規商品開発チームのような潤沢な予算が確保されているわけもなく、新たな市場調査などできませんから、世の中に溢れている情報や統計から最適なものを見つけ出し、上層部に提案するほかありません。ですので、データサイエンスの技術が必要となるのです。

このサイトの議題

@因果と相関の違い
Aサンプルサイズとサンプルバイアス
B見せかけ上の相関とその対処

 

記述統計
集めたデータの平均値を取ったりばらつきを見たりグラフにしてみたり

 

推測統計
データの1部分から全体を考える、サンプル調査

因果と相関

知りたいのは因果関係だけどデータから導かれるのは相関関係だけです。
データ検証や統計学と言うのは、相関関係を見ることしかできません。だから統計分析しても意味がないと言うのは間違いです。相関関係がないけど因果関係がある事はほぼありませんよほど特殊の事象がない限りありません。

 

だからまず、相関関係の有無を確認しなければならないのです。

 

相関関係は、2つの変数間に、@一方が増えるともう一方も増えるA一方が増えるともう一方は減るといった関係があることをいいます。

 

この相関関係があるという状態というのは4つの状態を取ります

  1. 因果
  2. 逆因果
  3. 偶然
  4. 共通原因

この3番目と4番目は因果関係がないことになります。

逆因果に注意

インスタ投稿数が多い場所ほど来客数が多いと言われています。しかしこれが逆因果ではないかと言う考え方に変わっています。
つまりSNSで注目されたからお客さんが多いのではなくて、たくさんお客さんがいればそれはインスタに投稿する人もなんとなく多くなるんじゃないか。今はあんまりインスタ投稿をやっていないらしいです。実は効果があまり見られなかった。

 

類似例
警察官が多いエリアほど犯罪が多い
※犯罪が多いエリアに警察官を増員するからです。

 

財政支出を大きくすると経済成長率が上がる
※経済成長率が高いと財政支出も大きくなるからです。

 

逆方向の因果に注意してください。

共通原因に注意

コンビニが多いエリアほどインフルエンザ患者が多い
※人口という共通原因があるからです。

サンプルのサイズとバイアス

大体の人は何人調べましたか?と言うサンプルサイズに注目してしまうのですが、実はサンプルサイズはそこまで重要ではなくむしろ重要なのはサンプルバイアスなのです。要はサンプルの質です。

 

サンプルが偏っていないか、調査が全体の縮図になっているか

 

データをうまく活用していくには、ただ多く集めればいいと言うわけではなく、なんとなく多いに越した事はないだろうと思ってしまうのですが、重要なポイントはそこじゃないと言うことに気づかなければなりません

データサイエンスの学び方

これからのデータサイエンスは、データによって検証しやすいように理論を作っていく作業が必須になるかと思います。
これは、自分でデータをグラフにしてみたり、ちょっとしたデータ分析やデータ整理を自分でやってみると新しい発見があります。

 

あるプロジェクトの企画書を書いている。企画を成功させるためにどのデータを活用すれば良いか、的外れなデータを使っていないか、ばらつきはないか、平均の取り方は正しいか、これが判断できるようになることが、このサイトの最終目的です。

 

記事へ

以下のサイトは、デジタル技術を支援しているので、そこからデータサイエンスのツールを見つけ出すのもよいかと思います。
鳥取県の電子化×自動化の導入を支援