今回は競馬予想をする上で参考になるかもしれない内容です。
馬券の成績を確率的な事象としてとらえた場合、その成績は何回くらいの試行回数で真の平均値に収束するのか、という話ですね。
私は競馬のレースがそれぞれ完全に独立試行であるとは考えていないので、その結果を確率的な事象としてとらえるのはどうなんだ、というそもそも論はあるんですが、昨今のAI予想(機械学習や統計学を利用した予想)の隆盛を見るに、多分きっと独立試行ととらえてしまって良いんでしょうねw
でもそうすると大数の法則に引っかかるのも合理的になるので、その辺りをどう説明するのか、という部分は専門家の方に聞いてみたいところではあります。
ということで、私自身は一応色々勉強しているつもりではありますが、専門家ではないので、これからの記述に間違いや不確かな内容が含まれているであろうことは予め断っておきたいと思います。
さて、本題ですが、確率的な事象が概ね平均値に収束するのに必要な試行回数というのは、大体定まっているようで、巷では1000回とか、10000回とか言われております。
1000回と10000回では大分違いますので、その違いについてまずは見ていきましょう。
比較的最近の私事で(と言っても数年前)「1000回で十分」説について思いつきましたのが、ドラクエ11をプレイしていた時に、とある攻略サイトのコメント欄を見てみると、敵モンスターが戦闘後に落とすアイテムについて、「正確な落とす確率は、1000回データを取ってみないと分からないよ。」と主張しているコメントです。
どうやらソシャゲなどのガチャで何らかのアイテムを手に入れるゲームも含めて、ゲーム界隈では何かをゲットするに際して、1000回データを取ってみる、ということがその確率の確かさを担保するために(周囲のユーザーを説得するために)印籠のような影響力を保持しているようです。
この辺りは実際には誤差をどれくらい許容するのか、という確率を観測する側がある程度意図的に設定する条件によって、必要な試行回数も変わってきます。
上記の参考サイト様の記事には、テレビの視聴率の調査に関する事例を用いて説明されています。
端的には1000回の試行回数ですと、生起確率にもよりますが、凡そ1~3%程度の誤差が生じることが分かります。
ドラクエのアイテムやソシャゲのガチャですと、上記サイト様の例よりもっと低い生起確率で落とすことになります(小数点以下の%な感じ)ので、1000回くらいで十分なのかもしれません(つまり、ネット上の「1000回で十分」説は一応的を射ていると言えます)。
生起確率が大きいと、それだけ誤差も大きくなる傾向があるためです。
逆に生起確率が小さいと、誤差も小さくなる傾向があります。
これを馬券に当てはめて考えると、的中率の低い大穴サイドの馬券(一桁%以下)は比較的少ない試行回数である程度真の平均値に近い値に収束しますが、的中率の高い本命サイドの馬券(40%以上くらいのイメージ)はそれなりの試行回数を確保しないと誤差が大きいということになります。
実際にそうなっているのか、2014年~2019年末までの単勝1番人気と単勝12番人気の単勝/複勝的中率その他をまとめてみました。
まずは単勝1番人気、単勝12番人気ともに、恐らく真の平均値に近い値に収束していると思われるのが、当然ですが総レース数がそれぞれ10000を超えているものです。
1番人気の勝率32.4%、複勝率64.1%という数字は、誤差としては±1%以下程度に収まっているはずです。
同様に、12番人気の勝率1.1%、複勝率5.3%という数字は、誤差としては±0.5%以下程度に収まっているはずです。
これが基準となります。
続いて、2019年1月~4月一杯の1番人気については、勝率31.3%、複勝率63.8%という数字で、かなり真の平均値に近い値になっています。
これらは1176という総レース数、言い換えると1176回の試行回数です。
2019年の12月一杯の1番人気については、勝率29.8%、複勝率62.3%と下振れしています。
これらは252という総レース数です。
また、2019年11月15日から30日までの1番人気については、勝率29.7%、複勝率63.9%と、やはり下振れしています。
これらは155の総レース数です。
ちなみに掲載しませんが、別の時期にとってみると、144レース数で勝率38.9%、複勝率77.1%と極端に上振れが起こっているものもありました。
やはり、100レース~300レース程度ですと、勝率、複勝率ともに誤差がかなり出る可能性があると思われます。
とはいえ、1000レースであっても多少の誤差が生じ得るものと捉えられます。
もう一つ注目すべきだと思うのは、単勝と複勝の平均配当です。
こちらの方は、どの時期で比べてみても、基本的には誤差が少なく、特に複勝平均配当については、ほぼ130円±2~3円程度で安定していました(大量の投票から算出される数字だからだと思われます)。
ここから言えるのは、特に複勝率60%以上の本命サイドの複勝ではオッズがかなり安定しており、回収率を上げるためには(オッズをなるべく維持しつつ)的中率を重点的に上げるべきだろうということです。
一方で、後述の穴馬券もそうですが、単勝の平均オッズは比較的誤差が大きいです。
しっかり調べていませんが、恐らく連単、連複系の馬券も誤差が複勝よりは大きいと思われます。
つまり、複勝以外の馬券種では、的中率はもちろん高いに越したことはないものの、いわゆるオッズの歪みを狙い打つことがかなり重要なのだろうと思われます。
次に12番人気の2019年1月~4月一杯分の941レースのもの、2019年12月一杯分の212レースのもの、2019年11月15から30日分の127レースのものを見てみます。
941レースのものでも、やはり多少の誤差が生じています。
また、212レースのもの、127レースのものは、レース数が少ない分、誤差が大きめに生じていて、平均配当、特に単勝の平均配当には真の平均値の2倍近い誤差が生じています。
この時期に馬券を買い始めたビギナーの人で、12番人気を中心に買っていた人は、「競馬で飯食える!俺って馬券の天才かも!」と思ったかもしれませんw
もちろん、他の時期では下振れがしっかり起きていたりしますので、すぐにその見当違いには気が付くはずですが。
12番人気の場合、1番人気と違って平均配当にはかなり大きい誤差が生じやすいように思われました。
これは恐らく、定説通り、穴サイドにオッズの歪みが生じやすい、ということを示しているのだろうと思います。
穴サイドはそもそも勝率、複勝率が低いため、勝率、複勝率などレースでの結果には大きな誤差が生じにくいですが、穴サイドの平均配当の値というのは数字が大きいため(投票数も少ない=試行回数が少ないとも捉えられます)、大きな誤差が生じやすいという理解で良いと思います。
大体こんなところです。
誤差を少なくする、真の平均値に近づける、という意味では、やはり予想レース数は1000回以上欲しいところでしょう。
とはいえ、予想手法によっては1000回の確保は結構大変だろうと思いますし、そもそも競馬が独立試行だとすると、大数の法則によって1000回以上やればやるほど真の平均値に収束していってしまうため、単純に均等買いで買うだけでは的中率や回収率の低下を招いてしまうのは間違いありません。
オッズの歪みを突く、という考えを基本にするならば、誤差の部分に活路を見出す、ある種高値の外れ値を狙っていくという理解の仕方もできると思いますので、レース数を絞るのも有効な手法なのではないかと個人的には思います。
ただし、全ての(あるいはほとんどの)レースにおいて、馬券種のいずれかの買い目にオッズの歪みが生じていると考えるのならば、レース数という試行回数を確保しつつ、プラス収支を達成できるのかもしれません。
例えば、馬券裁判で有名な卍氏や、AI予想などはそういったところを狙って成果を上げているのかもしれません。
一方で、上記の網羅的な予想のほとんどは、的中率についてはそこまで高い値を担保している限りではないため、今般行われている競馬予想家協会の馬券対決などの的中率も確保しての回収率向上(しかも金額の限度ルールもある)となると、やはりレース数を一定程度絞ることも必要なのではないかと感じる次第です。
というところでこの記事を終わりにしたいと思います。
馬券対決頑張るぞ!