データサイエンスの学び方

データサイエンスの学び方

あるプロジェクトの企画書を書いている。企画を成功させるためにどのデータを活用すれば良いか、的外れなデータを使っていないか、ばらつきはないか、平均の取り方は正しいか、これが判断できるようになることが、このサイトの最終目的です。

 

こういった学びは、ストレートに勉強するとあんまり楽しくありません。逆に失敗事例から学ぶことが上達のこの分野の上達の近道だと私は思います。

Case.1

企業価値を算定する場面で、見込まれる売上高や利益を推定するのに過去の決算書から平均を取りました。当然、平均を取る意味はありません。過去のデータを使うのであれば成長率を算定し、売り上げや利益を推定するのが通常です。平均は過去の事象を全く考慮していません。例えば時系列のような縦の分析には成長率を使いますが、同種同規模の会社との横の分析に平均を使うことは一定の合理性があるでしょう。

 

Case.2

インバウンドを過信しすぎた観光業者(架空)は、国内旅行者は断っています。理由は外国人旅行者の方がお金を使ってくれそうだから。しかし思ったよりも売上が上がりません。原因は来日外国人の旅行消費単価というデータを知らなかったことでした。

 

これが思ったよりも低額で、自らの業態が数で稼げる業態ではありません。国内旅行者の消費単価の方が多いことをデータで初めて知りました。観光庁の資料から国別の来日者数、平均泊数、1人1回あたり旅行支出額を見積もることができ、これをもとに経営すべきだったかもしれませんね。

 

もっと言えば、天災地変や疫病の安全率を見積もり、外国人×安全率と日本人×安全率の比較もよいでしょうね。

 

Case.3

円安で来日客が増えると誤信して、店舗拡大してしまった観光業(架空)でしたが、思ったよりも来客数が変わりませんでした。これは為替(円高や円安)と来日客に相関がない(相関係数=0)ことが統計で明らかにされているデータを知らないことにありました。

 

ただし、宿泊や飲食以外の買物代には相関が認められ(相関係数=0.8)ますが、結局は円高でも円安でも質の良いサービスには支出するので、総じると量から質への転換が必須で、店舗拡大という「量」よりもサービスという「質」を追求すべきだったかもしれませんね。