積微錄: 砌模型

2020年6月1日星期一

砌模型

個Blog久未更新，上篇文章的留言不斷累積，以致每次覆留言時都要瘋按頁面下方的“載入更多…”，甚是不便。同樣不斷累積的還有email郵箱裡的讀者來信，早前雖曾勉力回覆一小部份，但讀者們總是很快就“舉一反三”地拋來更多與之前差不多的問題，令池某覺得難以溝通。歸根究底，有效的溝通需要建立在共同的認知基礎之上，不然你來我往也只是雞同鴨講，牛頭唔搭馬嘴。

讀者來信中談得最多的，是砌賭馬模型的相關問題，諸如個別factor、某類data如何處理，怎樣有效解決factors的相關性、以及missing data等等。的確，這些也是池某日常在處理的問題。但池某認為，如果大家砌模型的用途與目的不一樣，這些處理方法未必一體適用。

廢話！辛辛苦苦砌模型的目的當然是要中馬贏錢了，怎會不一樣？有讀者（包括手動砌model的和以AI train data的）認為，只要個model夠勁、對頭馬估算的命中率夠高，每場下注model計出來機會率最高的兩匹或三匹馬就能長線贏錢了。

池某不敢說這種想法不對，也不敢說這種做法不可行，只會說池某沒有這樣的功力。換言之，池某的model不是這樣用的。簡單地說，池某砌模型不是用來找出頭馬的，而是以過去的數據分佈規律，給未來每一場的每一匹馬一個大致合理的定價，最終哪匹馬勝出都沒所謂，所謂命中率的高低亦不會在乎。可以想像一下賭場的骰寶賭局，莊家並不會在意下一局開出什麼點數，最重要的是要一早給所有可能的點數作好合理的定價，亦即與機率分佈相匹配的賠率。

不同的是，一場馬的機率分佈不像一局骰寶的機率分佈般確定且容易計算，需另闢蹊徑。其中一條可行的思路，是利用大量過去的數據分佈規律來預估未來小量數據的可能分佈，用句古語說就是希望“觀往而知來”，這就是使用統計模型作為工具的初衷，也是文章開頭所說的認知基礎。有了這個基礎，就可以討論砌模型過程中的幾個迷思了。

迷思一，建立模型時是不是用越多的data越好？試想一下這個例子：假設只用一個賽日的data，而該賽日田泰安贏了四場頭馬，顯然，用這樣的model去賭之後的賽事將是凶多吉少，而且，在這個例子中，騎師這個factor越是有效，結果將越是慘烈。

要防止個別極端偏差data造成的破壞，有兩方面的工作可以做：一是盡量找出多些有效factors，攤薄每一個factor對model影響的比重，不要被個別factor dominated整個model；二是增加data的量，減少這種小樣本偏差。

那麼是否data越多越好呢？池某曾作過比較，用多些data，model的統計指標確是看起來更漂亮，也能支撐起更多統計有效factor的數量，每次更新data時model也相對更能保持穩定。但從贏錢的成效來看，卻非data越多越好，用兩個賽季的data，明顯比用三個賽季data的成績更好。

為什麼會這樣？也許可以用上述那個“觀往知來”原則來解釋，使用過多的data，會令model“積重難返”，個別factor的數據分佈即使出現較大幅度的變化，比如騎師、練馬師的成績出現大幅的進步或退步，model的反應也會很滯後，造成長時間的高估或低估。

迷思二，model有很多種，哪一種砌法才最適用於賭馬？這方面池某並沒有作過太多的比較，不過，如果仍是從“觀往而知來”的出發點來考慮，factors的選擇似乎比model的選擇更為重要，因為不同類型的model，差別主要在於擬合data的方法，所體現的不同，僅在於對data的擬合程度，亦即“觀往”解釋舊data時，或有些微的好壞之分，但贏錢的關鍵更在於“知來”，顯然，factors才是貫穿“往”與“來”的主角。

迷思三，既然factors的選擇這麼重要，各組data或各個factor是不是會有一種最好的處理方式？如何增加某些factor的效果？或者將missing data比例較高的factor也做出效果？

先看看這個例子：如果你在一座山頭先撿了一堆石頭，之後再撿一塊新的，然後，拿新撿的這塊與之前那堆比較，相似程度會有多大呢？應該會有一定程度的機率吧。若換一種做法，你把那堆石頭先按自己的意願作了加工，變成自己心目中理想的石雕，再拿新撿的石塊與這堆石雕比較，難道相似程度會更大？

顯而易見，對data的過度加工和對factors的過份做作，只會影響“觀往”的結果，即使可以令結果看起來更好更有效，實際上那只是一廂情願，用於“知來”肯定是有害而無益，因為未來的data分佈一定是粗糙突兀的，絕不可能是你理想中的石雕。

因此，對data、對factor的處理根本不存在那麼多糾纏不清的疑問，最好的處理方法，當然就是簡單直接原始粗暴的方法，有效就是有效，無效就是無效。不存在增加效果的問題，也不存在把無效加工到有效的問題，那些都是畫蛇添足、無中生有。

不去提高factors的效果，這樣的model豈非很“弱雞”？這麼弱的工具，如何與別人競爭？回到砌模型的初衷，統計模型確實不是一件主動參與競爭的工具，而只是一件定價工具。如果公眾的定價更準確，就要輸錢；要公眾定價出錯，才能贏錢。贏或輸、贏多少或輸多少，都由公眾決定，自己完全是被動的（所以賭馬收入絕對是名副其實的“被動收入”，呵呵）。因此，“model派”會比較關注公眾賠率的R-squared value，用之來衡量遊戲的難易程度。

資料顯示，Bill Benter活躍於香港馬場的年代，公眾賠率的R-squared平均為0.13左右，到顧教授叱咤風雲的年代，公眾賠率的R-squared已升至0.17左右。到上個馬季，這個數值更是上升到0.218，進一步推高贏錢的難度。

不過，這個數字也並非只升不降的，今季到目前為止，就稍稍回落至0.213。將今季的數字拆開來看更是有意思，在疫情還未全球蔓延，各地球賽仍照常舉行，即馬會足智彩還接受投注之前，其實香港賽馬公眾賠率的R-squared高達0.221，由3月下旬開始完全冇波可賭，所有賭仔唯一選擇只能賭馬算起，賽馬公眾賠率的R-squared急降至0.191，贏錢的難度一下子降低了很多。借此機會也想與blog友們共勉一下：面對疫境也好、逆境也好，實在不必過度灰心，身邊總是會有新的希望的。

關於model賭馬，池某大致的想法就是這些，這也是對部份blog友來信的答覆。Blog友們的email，池某就不一一回信了，請見諒。

128 則留言:

都好客2020年6月3日晚上10:41
終於出新post了,謝謝池兄分享.
回覆刪除
回覆
老賭徙2020年6月4日上午9:04
差不多2年了，感謝池兄繼續分享。
回覆刪除
回覆
Roger2020年6月4日晚上10:01
用logistic regression本身就是計probability，然後去和公眾賠率比較，作「差價投注」。我只是好奇，池兄若果只投注MODEL首三名算出最高勝出機率的馬，會得出負回報嗎？一般馬迷都喜歡以小博大，所以一隻跑100次都跑唔出的馬，有70倍都會有D人覺得抵。相返一隻跑3次贏2次的馬，有1.7倍多數人會覺得冇乜好分而唔買。就咁諗的話，熱門馬的「差價」應該比冷門更大，所以投注MODEL的首三名應該都會有利潤（不一定是「最大」），而且命中率更高。
回覆刪除
回覆
PP2020年6月9日晚上10:52
this new post from 池兄 really inspiring and yes, we are betting against the public. The model itself is to "price" the risk.
回覆刪除
回覆
joseph leung2020年6月10日下午5:26
池兄好久沒出文了. 祝生活與其他一切安好.

小弟我今年就真係不太順利. 但時好時壞都是人生的一部份. 所以我唯有淡然應對.
回覆刪除
回覆
都好客2020年6月18日晚上11:34
池兄有樣嘢想問, 如我沒有理解錯誤,池兄在這裡一路的理念,投注長遠可贏,事必要有edge,獨贏用MLR找有edge的對象下注,長遠可贏這個很容易理解,用kelly只不過是將這個利潤最大化. 但在大彩池中找最高機率下注這個方法的edge在那裡呢? 例如我在六環彩中，共7百多萬個組合中, 找前10%的組合投注，也不會憑空產生edge的, 這個原理是怎樣呢? 如要在投注組合中落filter, 又會落入overfitting的魔咒中, 這個其實大約可怎麼操作呢?
回覆刪除
回覆
都好客2020年6月19日晚上9:19
多謝指教, 我就是卡在這裡, 寫了一個小程式, 可計算所有組合的概率及排序, 以六環彩為例, 2020年4月1日, 有4場14隻,2場12隻, 最多可有5,531,904個組合, 我用程式可輕易掃出前列10%最大勝出概率共有466個組合, 如不運用填「飛」的技巧, 只10元一注, 成本要 $4,660, 這466個組合中最終中了7注正獎, 派$938, 即共收$6,566, 只有微利, 同買place差不多.

再用2020年6月10日為例, 最多可有2,280,960個組合, 掃出前列10%最大勝出概率共有1316個組合, 但這個數目遠遠不足以到達中獎之數, 第一個中獎組合要去到第3191個, 即是好彩的話, 要用$31,910投注, 收回正獎$7,128.

如加大投注去到cover 30%, 要大約1萬注, 這1萬注最終中了9注正獎, 共收$64,152, 慘敗收場.

以上只是計算, 唔係實戰, 我只是奇怪要在什麼情況下, 在大彩池中有機會找到明顯的edge.
回覆刪除
回覆
PPG2020年6月24日晚上11:13
I want to say: backtesting with final odds is not going to work.
For most of the races I place bets when the horses start to enter the stalls, but there are always 30-40% of bets placed after my bets . I want to emphasize the number. I would consider this 30-40% of bets are from professional gamblers and insiders sitting inside the VIP rooms.

There are two currently two ways :
1) delay my bet until last second. (but unless I gamble in HKJC VIP rooms, I dont know when is "last second")
2) enhance my model such that beta becomes less and less significant (but my progress is like a log graph..)
3) backtest using the odds at bet (instead of final odds) when doing step 2 Kelly, and estimate the profits using final odds

haha.. forgive me typing so much Hong Kong style english...

Thanks Mr.池 keep updating this blog!
回覆刪除
回覆
PPG2020年6月24日晚上11:21
Let me supplement with some numbers.
take today's first race as example.
WIN
pool size when I bet final pool size
HKD 12.0M HKD 19.7M

TRI
pool size when I bet final pool size
HKD 1.3M HKD 1.9M

Textbook formula of Horse Racing investment is that
expected profit E(profit) = Bet Size * (probability * odds - 1)

But in fact,
E(profit) = Bet Size * (probability * E(odds) - 1),
where the variance of odds increase dramatically since early 2000.
回覆刪除
回覆
匿名2020年6月28日上午10:28
點解咁執著要最後賠率呢？還原基本步，你地嘅方法唔係話要贏不理性嘅公眾嗎？開閘一刻大注嘅飛會係公眾飛嗎？你地個系統要改善嘅地方絕對唔係Kelly，最緊要係改善勝出率嘅估計，相信好多人贏唔到，都係呢部分出問題，但就偏向唔承認或接受自己嘅系統預測勝出率係唔掂
回覆刪除
回覆
匿名2020年6月28日上午10:42
仲有好多人以為，有KELLY加MLR配合，就算今次唔中，長遠加埋都會贏，依家負數只係KELLY注碼分配得唔好，其實唔係架，要個系統贏，有個臨界點，勝出率唔夠高（唔好以為場場都有頭馬買中就係高，仲要睇你買咗幾多隻），注碼點分都係得個吉
回覆刪除
回覆
神經漢2020年6月29日下午4:44
感覺到好多師兄對最後賠率有一種莫名嘅執著

我將池兄嘅例子用另一個方法演繹
如果遇上落飛情況, 即係落飛前的賠率比EO高好多, 根據kelly Criterion, edge愈高買得愈多, 某程度上係彌補咗落飛導致回報減少嘅損失 (以量補質)

正常情況到最後各勝負數會互相抵銷, 實際影響不大只係心理影響較多
因為大家只係記得賺少咗果部分, 忘記咗「輸」少咗果部分
回覆刪除
回覆
Jeff2020年7月1日上午10:43
老虎都霸翻个头页先，终于有新文章。谢谢
回覆刪除
回覆
匿名2020年7月6日下午6:04
有點好奇大家係點做2 step model的
假如我用16-19年data train個1 step model 再用返16-19年data 整2 step model黎計alpha beta值咁我個alpha:beta比例實高到飛起因為基本上亂塞堆factor都可以推高佢如果實戰用呢個alpha beta比例黎計最終EO 肯定輸到飛起
所以如果用16-19年train step1 model 係咪應該用19-20年data黎整2step model?
回覆刪除
回覆
匿名2020年7月7日晚上8:43
請問normalized的意思是每"場"參賽馬probability加總為1嗎 ?
回覆刪除
回覆
PPG2020年7月11日上午10:31
老賭徒兄,其實除了平磅賽外，還有很多比重少但奇怪的馬（比如新馬、第一季新跑新場地等）Agree this is difficult to find features for these horses.
回覆刪除
回覆
老賭徙2020年7月11日中午12:30
非常同意，這是一直思考的問題，分類計算又怕數據小而不準，合併計算又怕雜音多，試來試去成果有限。很小因子像騎師勝率一樣這麽直接而有效！如馬齡亦越小越有勝率，2歲就不是了，但 LR只給出一個結果。
回覆刪除
回覆
PPG2020年7月11日晚上7:29
老賭徙, the important thing is always how well you interpret horse racing itself, rather than choosing a model.

Advanced models such as neural network are useless if you input rubbish features.
回覆刪除
回覆
PPG2020年7月11日晚上7:39
很小因子像騎師勝率一樣這麽直接而有效<--Agreed. This is because jockey ability is somehow like an odd determined by the jockeys. Strong jockeys often can choose the strongest horses among a race.
回覆刪除
回覆
HM2020年7月12日凌晨1:50
請問有無高手可以解釋下benter文章中DP6A的因子具體怎樣做?
一開始用所有train data還是每隻馬各自的往蹟 train model估名次?
residual 又怎樣用來估算表現和賽程的關係?
standard error又怎樣計出來?
謝謝
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2020年6月1日 星期一

砌模型

128 則留言:

2020年6月1日星期一