読者です 読者をやめる 読者になる 読者になる

データ分析・機械学習

〜素人の分析は玄人の直感に勝るか〜

【競馬予測vol.5】DeepLearning,RandomForest,SVMで競馬分析

久々の更新

しばらく更新が途絶えていましたが、その間にも機械学習をコツコツ学び、仮説・検証を繰り返してきました。
データの方も、機械学習を始めた当初は手作業で集めてせいぜい400件ほどしか扱えませんでしたが、現在では約36万件のデータをいじくりまわせるまで環境が整ってきました。

全36レース分析予測

今は詳細を書く気力がないので省きますが、今回は4月22日(土)に開催された競馬全36レースを分析・予測を行いました。

目的変数は「3着以内に入るか」。あくまで「複勝を的中させる」ことを目的とした分析です。よって、現状では回収率の最適化などは一切考慮していません。説明変数はこれまでの試行錯誤で選んだ50個ほどの変数を用いました。

使用データ数

計算時間を考慮して、約10万件としました。

使用アルゴリズム

  • RandomForest
  • SVM
  • DeepLearning
  • NaiveBayes

結果

全36レースを予測しましたが、結果から見逃すべきと判断されるレースは馬券購入しませんでした。そして残ったレースの中からさらに適当に9レースのみ選んで100円単位で購入してみました。Rのスクリプトと向き合い続けてきて、ある程度の分析ができるようになった喜びから欲を出してしまい、前半は複勝以外で買ってしまった(以前も同じ過ちを…)ためはずれが目立ちますが、後半は分析にしっかり沿って複勝のみで購入しました。

f:id:taux:20170423024202p:plain
☆マークのあるものが的中

久々の実践であり、ここまでのデータ量での実践は初でしたが、なかなか良い的中率なので満足です!
機械学習おそるべし…。すごい時代です。

過去の記事

機械学習で競馬分析を始めた経緯などはこちらから
taux.hatenablog.com