積微錄: 找死

2020年7月14日星期二

找死

延續上文的討論，若用現在手上的model賭馬不能贏錢，是否做一個更強的、統計指標更漂亮的model就能扭轉乾坤？個人觀點是，不宜過度關注及追求model的統計指標，而應該好好了解一下自認為有效model的“效果”從何而來。

如果用來砌model的那堆data叫D1，未開跑那堆data叫D2，池某所接觸過的model使用者，不論是用logit model的還是用AI的，無一例外，都總會全副心思放在D1，費盡精力尋找有效factors，絞盡腦汁令model的統計指標看起來更“靚”，認為只要將model做到越強越有效就行，而從不理會D2的分佈會有怎樣的可能。

然而，實際上贏錢與否無關model的強弱，反而與D1、D2的分佈是否一致的關係更大。若D2的分佈遠遠偏離D1，用D1的regression結果去“預測＂D2顯然是找死，而且model越強越有效就死得越慘烈。

又由於D2相對於D1是小樣本，即使是random的因素，也會令其分佈偏離於D1成為大概率事件。最常見的就是兩、三個月不贏馬的騎師、練馬師突然一日贏兩、三場；或者一條一向利放頭的跑道突然轉向大利後上等等，涉及方方面面各個factor的例子不勝枚舉。

我們做過regression都知道，如果data的分佈是random的，factors就會無效，做出來的model也會沒什麼效果；data分佈極端且趨向明顯，做出來的model效果才好，統計指標才“靚”。因此，一個model看起來統計效果好、factors看起來有效，多數是因為data分佈極端偏離所致。用這樣一個本來就分佈偏離的D1的regression結果，去“預測＂一個分佈偏離幅度更大且無定向的D2，不輸錢才怪。

但人們一旦輸了錢，首先想到的就係個model唔夠勁、factors唔夠有效，於是搜索枯腸，將同一堆data左配右搭，搓圓撳扁，生搬硬砌，以期砌出一個統計指標更好的、看起來更有效的model，結果是統計指標越“靚＂，偏離就越大，輸得越慘，然後，重來，砌一個更“勁＂的model……，陷入死完再找死的循環之中。

Overfitting的問題，不是不懂，但人們總是會自然而然地踏上這條死路而不自知。找出不為人知的有效factors，固然是令model取得或保持優勢的最好方法。問題是，一旦聽聞或心裡覺得某個factor會有效，或有了factor A定會比factor B更有效之類的執念，經過一輪死砌爛砌之後，這些主觀想法是一定能自我實現的，於是就不經不覺地自掘墳墓，墮入自找的overfitting陷阱。

55 則留言:

匿名2020年7月14日晚上7:27
好奇一問，D1個dataset可以拆成train set, validation set, test set，做cross validation應該可以避免overfit，定係仲有其他原因咁做都唔掂？

Wanderer
回覆刪除
回覆
Cherry2020年7月14日晚上7:51
池兄重新寫文~大力支持！
回覆刪除
回覆
廿四味2020年7月14日晚上10:29
發人心省
回覆刪除
回覆
unknown2020年7月15日下午3:34
Regression的好處, 是能夠充份地, 科學化地從歷史中學習
而 Regression 的壞處, 是假設了歷史只會不斷重演
回覆刪除
回覆
Unknown2020年7月18日下午1:12
真係又去左哲學問題....呵呵
羅文都有唱 : 知否世事常變，變幻原是永恒.......
法無定法, 所有隨機性都是必然性, 所以我這類門外看馬迷要求model能不停變態, 只希望比普通馬迷反應快一點
回覆刪除
回覆
0000002020年7月21日凌晨3:48
HI
DHFS 個賠率越來越差...
600K 彩池1200注中 @@
幾時會係個邊界變得無利可圖?
另,有幾次好多注中的時候係自己MODEL 都放到好後, 可能有埋人發現左新計法去玩~
回覆刪除
回覆
百家樂2020年8月5日下午6:47
由15年睇返你寫嘅嘢好正希望9月5號之後再見你
回覆刪除
回覆
百家樂2020年8月5日下午6:50
作者已經移除這則留言。
回覆刪除
回覆
匿名2020年8月13日上午9:12
池兄, 請問你用SAS, 係咪用phreg?
回覆刪除
回覆
小白2020年8月28日下午1:36
池兄及各位高人好,此版確是很多厲害之人,大家的高見,小弟甚為佩服,故也有些問題想請各位指教.

1.如池兄所說用2季data比較好,但實際情況是用太少data,又真的很難找到很多有效的factors,大部份都會撞,小弟實在不明白在如此小的sample size裡如何可以找到超過70甚至100個以上有效的factors,這方面該如何取捨?

2.如上文所說model應優先考慮賽馬的基本情況對賽果的影響,那麼是不是也可以把一些常識上合理但p value大過0.5的factors也放進去用呢?

3.請問如果想玩過關,可以用哪種方法來計算,因為小弟用的是2 step,不可能提前知道下一場的ro,池兄能否給一些hint呢?

4.請問如何用獨贏ro來推算大概三重彩和單T的ro?

謝謝
回覆刪除
回覆
范高爾2021年8月27日晚上11:44
關於統計factors和variables的選用，小弟今個夏天在研究賭波的program時發現，以minimize p-value/adjusted R^2 既ratio來作model既選擇帶來既效益會系最大.不論actual return還是hit rate在backtesting都系表現最好的，不知池兄認為呢個condition是否有用?

題外話，小弟的波馬program都是啟發自池兄這個blog，再開始落手落腳砌model.
現在更對數據科學產生濃厚興趣,正在修讀master degree.在此十分感激池兄在這個blog的無私分享!實在獲益良多.
回覆刪除
回覆
xna2021年8月31日下午4:20
例如搵到呢個跑道標準及記錄時間，對於會用的人，呢個資料一定好有用。但對於我呢個門外漢，都不知道如何下手。

https://racing.hkjc.com/racing/chinese/racing-info/racing_course_time.aspx

賽馬太複雜，暫時又想轉去學玩孖膽。
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2020年7月14日 星期二

找死

55 則留言:

2020年7月14日星期二