NBAのスタッツをExcelで解析してみよう!前編
どうも。
今日は、データ解析入門者の私が、データ解析ド素人の方に向けて、エクセルでのデータ解析の仕方についてレクチャーしたいと思います。データ解析初心者以上の方にとっては退屈に感じるでしょうし、私の手法の間違いや改善点に気づくと思います。是非、修正点等をコメント欄にてご指摘いただければと思います。
以下のレクチャーは、Excelがインストールされていることが前提になります。よろぴく。
たとえば、NBAをみているときにふと「結局、スリーポイントを高確率で決めるチームが強いんじゃね?」というような仮説が浮かんだとします。それを考えたあなたは早速NBAのスタッツサイトに飛び込み、チームごとのスタッツが並んでいるようなページで3PT%でソートし、上位のチームをみて、「あー、やっぱり3PT%が高いチームは強いチームが多いなあ」なんて思い、満足してサイトを閉じる。
そんなんでいいのか?
ウィザーズもペリカンズも3PT%でいえば5位と6位なんだぞ!(失礼)
こういったことは、見た目で判断せず、エクセルで解析をして、勝率と3PT%の具体的な相関の数値をだすことによって、根拠がはっきりするというものです。
それでは、データ解析の下準備として、NBAのスタッツサイトで公開されているデータをCSVファイルとして保存するところから始めましょう。
今回は、"Basketball-Reference.com"というサイトを使います。ググりましょう。
こんなページがでてきます。
次に、"Seasons"→"2019-20 Summary"にすすみましょう。
みんなの大好きな1試合ごとのスタッツがでてきます。
あとで解析しやすいように、必ず"Team"のところを押して、アルファベット順にしておきましょう。次に、"Share & more"→"Get table as CSV (for Excel)"をクリックします。
なんだかよくわからない感じになってしまいます。ド素人の方の場合は、ここで嫌になってしまうと思います。しかし、めげずにメモ帳をひらきましょう。そして、このわけのわからないやつを全部コピーして、メモ帳にはりつけましょう。
順調です。よくぞ貼り付けました。
そして、次が肝心です。メモ帳を保存するときに、名前の最後に".csv"をつけて保存してください。
".csv"をつけて保存できたら、そのCSVファイルをひらいてみましょう。
す、すごい!! NBAのスタッツをエクセルでひらくことができたぞお!!
あなたが解析ド素人であれば感動しますし、初心者以上であれば感動しないでしょう。
しかし、ここで一つ難点が。
"Team Per Game Stats"には試合の勝ち数と負け数が入っていないのです。
そこで、勝ち数と負け数が記録されている"Miscellaneous Stats"というところにいって、同様にCSVファイルとして保存しましょう。"Team"でソートしておくことを忘れないようにしましょう。
CSVファイルのまま解析すると、のちのち面倒なことになるので、エクセルファイルとして保存しなおした方がいいと思います。
解析の下準備は以上となります。
ここから先は後編で解説します。
いつか、
きっと。
参考サイト:
以下のサイトでは、2013年~2018年のチームスタッツを参考に、どういった要素が勝率と相関関係にあるのかを解析しています。もはや自分で解析する意味ない。
https://mattbatman.com/nba-team-stats-win-correlation-regular-season