2017年3月2日 星期四

繼續Kelly Criterion

投稿到媒體緣於塘人兄那句玩笑話。塘人兄說,懷疑香港的媒體有潛規則,blogger的文章一旦被刊出,就要unlink塘人兄的blog。實踐是檢驗猜說的唯一標準,是真是假,試試便知。


本以為這種blogger的口水貨最多放在網上攝下位走過場就算,沒想到老總很認真地回覆,說看起來也應合雜誌讀者的口味,不如放到雜誌。那就當然要客隨主便了。忽然有一種奇怪的感覺湧起,池某平日的工作是處理別人的來稿,這次卻身份逆轉,變成被處理,聽候發落,報應也。

雜誌是月刊,一個月才出版一次,加上這類稿件沒有時效性,慢慢等吧,只是“實驗”的時程也拉長了,期間塘人兄還要玩搬blog,嚇得池某連忙add晒新舊網址,以確保“實驗”結果可靠。

另一個想不到的是池某的身份被變成“財經博客”,看來要學學Mike兄、森而兄那樣多加些親子、生活題材,將blog的內容多元化了。池某一直沒有為自己所寫內容的定下專門的、特定的範疇,寫這個blog的初衷,在本blog的第一篇blog文已作了說明,就是記下一些需要記得的知識和資訊,特別是那些細微而容易被忽略、漠視的,故取blog名為“積微錄”。

“積微”一詞,出自荀子《強國篇》:

積微,月不勝日,時不勝月,歲不勝時。凡人好敖慢小事,大事至,然後興之務之。如是,則常不勝夫敦比於小事者矣!是何也?則小事之至也數,其縣日也博,其為積也大。大事之至也希,其縣日也淺,其為積也小。故,善日者王,善時者霸,補漏者危,大荒者亡!故,王者敬日,霸者敬時,僅存之國,危而後戚之。亡國,至亡而後知亡,至死而後知死。亡國之禍敗,不可勝悔也。霸者之善箸也,可以時托也。王者之功名,不可勝日誌也。財物貨寶以大為重,政教功名者反是,能積微者速成。詩曰:德如毛,民鮮克舉之。此之謂也。

兩千多年前的文章,論述深刻厚重,指明了為人處事的應有態度,以現代的眼光來看亦不覺過時。文章的大意,用今日的話說,就是大多數人都好高騖遠,對小事不上心,一心只想做大事,實際上這種只想做大事的人,並不如那些認真做好每日小事的人。因為小事很多,每日都有,累計所費的精力與時間很多,但累積的成果也大;真正的大事並不常發生,累計所費的時間與精力不多,積累的成果也少。所以,積累微小之功,實際上是能最快成功的。

用大眾更熟悉的語言來說,就是大多數人一心只想買中隻倍升股或扒個大冷門,一夕發達,實際上最終表現並不如那些長期在平常市況取得平常回報的人,因為大多數市況都是平常的,平常的回報不斷累積就會變得很不平常;而大冷門並不常發生,即使偶然中一次,攤長來看回報也會變得很平常。

中一次100倍和中十次10倍,回報和風險不是一樣嗎?當然不一樣,因為有複式效應,因為有Kelly Criterion。

140 則留言:

  1. 不如直接叫波馬博客? 都特意用賽馬做背景了
    btw多謝池兄設立這個平台供各方高手交流 今天能讓小弟如願以償:D

    回覆刪除
    回覆
    1. 哈。波馬也好,投資也好,只是人生的一部份,一小部份,其更大的意義是參與過程中可實踐學習與思考的成果。

      刪除
  2. 信報月刊果然識貨,不枉我曾經睇左佢幾多年

    池兄這裡有波有馬有股票,理論實驗兼備,不是一般財經博客咁簡單,亦比我那些生活文章有意義得多

    回覆刪除
    回覆
    1. 信報好野嚟架,由其是佢個研究部:)

      刪除
    2. 以做媒體的角度看,信字產品的內容還是相對較紮實,沒什麼嘩眾取寵虛浮之論。

      刪除
  3. 池兄最後一句最精景。

    回覆刪除
    回覆
    1. Micheal兄是早就理解Kelly Criterion精髓之人,故一看就能意會,不需要池某再多廢話。

      刪除
  4. 回覆
    1. 池兄, 看來這口孖膽多寶是為了慶祝您上財經月刊而連續累積的, 又一次高概率高賠率, 銀紙慢慢數, 恭喜恭喜

      每注派彩 : $14,559

      刪除
    2. 這口多寶我中不了. 原因輸在邊緣注項....哭... :-(

      刪除
    3. 咦,呢口池某都唔中噃。睇派彩真係超賠率。

      刪除
  5. 支持。廣大讀者有褔了。

    //用大眾更熟悉的語言來說,就是大多數人一心只想買中隻倍升股或扒個大冷門,一夕發達,實際上最終表現並不如那些長期在平常市況取得平常回報的人,

    賭性重又不會思慮的人只會當你在放屁,是不會聽入耳的,這種人常見呢。

    回覆刪除
    回覆
    1. 哈哈。沒有這些人你的利潤來自哪裡呀?

      刪除
    2. 氣就氣在身邊有這些屢勸不聽的人,別人就不管了。

      刪除
    3. 忠言逆耳,良藥苦口,不願動腦的梗係寧願揀大師們的糖衣毒藥啦。

      刪除
  6. 恭喜池兄!祝洛陽紙貴:)

    池兄文理皆精、情理兼備,相信你出書的話,一定會造福更多大眾的!

    回覆刪除
    回覆
    1. 呵呵。池某小賭徒一個,最忌個「書」字。

      刪除
  7. 打麻雀格言: 密食當三番!

    恭喜池兄! 原來「應用數學」真係咁實用!

    回覆刪除
    回覆
    1. 謝醉心兄。嚴格來說,應是密食勝三番呢。

      刪除
  8. 從池兄處偷師,用于股票上,但相關係數測定大有難度,特別是如何調整應用于細價股。而演化規劃求解優化股市分配注碼功能,原理是不是和Kelly criterion 相近?

    回覆刪除
    回覆
    1. Simultaneous kelly同multi kelly分別適用於波馬,是因為波的賠率是固定的,馬的最後賠率也是不變的,只需估算概率,就可確定比例。應用於股票的難處是股價每一刻都在變,每一隻股票的最佳進出時機又不一致,故沒聽說過直接將Kelly criterion使用在股票注碼分配的做法,一般只會概括地跟從Kelly精神,重倉護城河夠寬的,小注爆發力強的。Edward Thorp也只說巴菲特是以Kelly criterion的思維來思考,並沒說巴菲特是嚴格根據Kelly criterion分配注碼的。

      刪除
    2. 剛再看The signal and the noise, 相關聯的,感覺信號會決定賠率,而雜音會引發偏差。困難之處在于分清信號和雜音,然後確定信號(參數)係數,護城河只是其中一種吧,多取決個人感覺,某些PE,PB,EV...數據可能更直接有效

      刪除
    3. 是的。在Kelly criterion的公式中,有兩個條件是必需的,一個是概率,一個是賠率。用於股票的難處是賠率不容易確定,也很難化作精確的量化計算。

      刪除
    4. 靈機一動,股市好像在某些特定情況下,貼率可說是固定,概率則有過去數據做為回歸分析。可能會不錯

      刪除
    5. 應該安全過期權,但要花點時間看和估算。

      刪除
    6. 有好發現?願聞其詳。

      刪除
    7. 通告長期有幾種貼率固定的機會,其它是概率的範疇,公式應有用武之地。

      刪除
    8. 股票計概率都好似冇乜可以精確量化的工具。

      刪除
    9. 縂概率可以用過往同類事件統計數據做初步量化,用公式分配注碼。

      刪除
    10. 計算一隻股票或者可行,但多隻股票怎樣用simultaneous kelly分配注碼?每隻股票的「派彩」時間都不一樣,又不像賭波那樣可以同時買過關。

      刪除
    11. Excel規劃求解有類似功能,時間值是個問題,暫算平均值,要做數據統計丶優化,賠率不同和時間不同會影響回報,還有個股因素,最終會決定注碼比例。

      刪除
    12. 見過有人用規劃求解寫multi kelly calculator,是ok的。
      不過股票較適合用simultaneous kelly calculator,不知道規劃求解能否做到。池某曾經用VBA寫過一個用於賭波,每加一場波就要加一個loop,最多去到十幾場,CPU就頂唔順。所以這個方向就算方法、技術行得通,硬件也是一個問題。

      刪除
    13. 固定時間(比如兩年)注碼分配用規劃求解比較簡單,追求夏普率基本解決。時間值不同偏差較大(如國企時間較長),可能係數不同,原料資料統計很痛苦,你說的硬件間題我正在股市觀察表正在體驗,因為原始資料庫巨大,但相信目前case尚ok.

      刪除
    14. 經歷辛苦方得世間財。祝成功。

      刪除
    15. 未知的未知需要更多是運氣,目前努力先做好未知的已知。

      刪除
    16. 請問兩位高手對Jane Hung推導出Kelly Criterion應用在股市中的方程式
      = (mean – r)/variance
      有甚麼意見?
      (r is rate of return of capital elsewhere)

      (https://sites.math.washington.edu/~morrow/336_10/papers/jane.pdf)

      刪除
    17. 池某認為其推導過程中的assumption是關鍵,是否接受這個推導結果,視乎是否認同其assumption貼近實際。

      刪除
    18. 基本上我用夏普率sharpe ratio,公式類似,(E-r)/標準差,和你講的相差不大,回測是支持的。

      刪除
    19. 一般應用於交易的資金管理是用optimal f,也是由kelly轉化而成。創造這formula的人是Ralph Vince。

      刪除
    20. kelly Criterion 的基礎是針對固定賠率,而optimal f是應用於不固定的風險或回報。這資金管理通常用於期貨市場,股票的可以參考一書stock on the move (作者為 andreas clenow) ,利用股票的波動來計算注碼。

      刪除
    21. 想強調Kelly Criterion 是不適合用於交易(包括股票),主要原因是回報不是固定的,而且風險太高,risk of ruin 可以非常高,未賺到大錢前已經破產。以我所知,成功例子只有larry william 和他女兒曾經成功用kelly's formula去參加期貨比賽,而得到冠軍。不過少數的成功例子,我建議學是可以,但不要跟隨好了。

      刪除
    22. optimal f 理論上是跟據交易策略過去交易的PnL去回測,找出最佳的下注比例。但現實中交易,跟本不會用到optimal f,原因是將來的PnL是不會再重複,有機會愈來愈差。這時,如果還在用之前計算好的optimal f,回報不變,但風險就只會幾何級增加。所以真實交易是注碼距離optimal f 愈遠愈好。即是愈少愈好,自己衡量。

      刪除
    23. 多謝好介紹,池某還以為利用股票波動來計算注碼的創始人係Claude Shannon。呵呵。

      刪除
  9. 說來慚愧...我一路以為叫做微積錄...咁0岩內容又有數學係入面(我相信果D係數學!)
    原來是積微錄!!!

    回覆刪除
    回覆
    1. 哈哈。唔識微積錄,微積分就識。

      刪除
    2. 唔好意思, 我也是以為叫做"微積錄"..
      我GOOGLE時也是打"微積錄", 沒有留意第一個係"積微錄"..

      刪除
    3. 係喎。原來調轉都search到。

      刪除
  10. 回覆
    1. Thx.
      昨晚全泥地,edge很顯著,PP兄應該又是個豐收日了。

      刪除
    2. yes horses with early speed were very hard to beat in Wednesday's dirt tracks.

      刪除
    3. 最正係冇泥地賽績根據的,特獎、嶺喜峯、騂龍,隻隻和味。

      刪除
    4. Yes. To me I don't believe what so called experts on newspapers said some horses don't like dirt or dirt not good for this pedigree...similar to say some horses are specialist in narrow tracks or Happy Valley :)

      刪除
    5. 專家只有場地合不合適、狀態好不好、賽績強不強等粗略而籠統的判斷,加在一起就亂龍了,無論如何都難及把幾十個因素細化、量化的model。

      刪除
  11. 『Kelly Criterion角色,只是「輔助」數牌技巧和統計模型把其原本優勢發揮得更有效而已。也就是說,如果使用者手上沒有一套具優勢的投資系統,Kelly Criterion也就沒有着力點了。』

    說得好,難就難在大多數人跟本連一套具優勢的投資系統也找不到,遑論使用Kelly Criterion去作更有效的發揮了。

    回覆刪除
    回覆
    1. 池某也有追看追求自由兄的blog,偷師學習建立一套可行、可靠、具優勢投資系統的想法和思路。哈哈。
      沒有edge這個提前,Kelly Criterion只是一件自殺工具。
      看到有人連Kelly Criterion背後的數學原理都未搞清楚,simultaneous kelly和multi kelly的具體作用都未分得清,也寫不出可實際操作的calculator,就說要東施效顰使用甚至教人使用Kelly Criterion,真是無限感慨。

      刪除
  12. 呵呵, 信報我一直都追看. 今期更一定想馬上看看呢. 如果池兄同信報中人稔熟, 不如索性開一個'投資哲學'版, 內含廣泛不同投資理念, 如Kelly's, 或其他. 好過日日聽同一類教條.

    回覆刪除
    回覆
    1. 池某已經過了攞苦來辛的年紀,自己的專欄也停筆多年了。一旦有了責任,就會成為束縛,少很多自由。

      刪除
  13. 信報有睇開,內容深入廣泛,非普通比冧巴式財經雜誌可比,可見池兄真材實料,勁!👍

    回覆刪除
    回覆
    1. 池某認為媒體作為公器有責任引領社會去思考探索,但非宣傳式的所謂輿論導向,更不應以懶人包使讀者思維愚化、鈍化。奈何,後者才有市場。

      刪除
  14. 希望信報財經月刊能多點刊登類似池兄這篇的優質文,也不枉流星一直長期支持。

    最近要在各大媒體中找一些有營養的文章真的不容易。

    回覆刪除
    回覆
    1. 優質、有營養的文章要靠流星兄了。
      池某有自知之明,池某這套只能面向小眾群體,成不了大眾常識,因為不易被文科人或只懂加減乘除的人所理解和接受。

      刪除
  15. 池兄,

    在池兄的blog上獲益良多,在下也在學鴠池兄blog中所提及的方法,有以下問題想請教池兄,望兄能告知:


    1. 請問在2 step model裡計算出的alpha: beta是1.5,這樣能盈利嗎?

    2. 敢問池兄於first step model有計算R sqaure嗎?如有,大約是多少?

    謝謝
    宸獋憴

    回覆刪除
    回覆
    1. 1.這個比例未必是一個很確定的指標,因為搏命加假有效的factor也是可以推高比例的,但不一定能盈利。

      2.其實是應該計的,只是每個賽日要更新太麻煩,加上早前個model改來改去,便懶得計了。

      刪除
    2. R square能計到出來最好,實際上是不容易計到有參考意義的R square的。首先,R square需要一段長時間的數據才有意義,但不能用最新的參數來一次過做回測,否則只是自欺欺人;如果每個賽日更新數據做R square,也要期間個model一成不變才能作準,但現實中我們需要根據data的加加減減不斷修改model使其結果達致收斂。

      刪除
  16. 謝謝池兄

    池兄於另一篇文章中的回文中曾提及以下:

    "看Parameter Estimate中的Sig,要綜合來看擬定一個次序,先刪有害的,再刪無益的。
    有害的:
    Parameter Estimate若應正卻負或應負卻正,即刪。
    Chi-Square很小而Hazard Ratio很大,即刪。
    無益的:
    Chi-Square太小或Pr > ChiSq太大的。"

    想請問"看Parameter Estimate中的Sig,要綜合來看擬定一個次序" 是指在看每一個variable對應在當前的名次對應reference event的 Sig嗎?

    假設我的reference 名次是14, 那如果出現了對應 名次=1 時的Pr> Chi sq <0.5 但是 對應名次=2 3 4 5時的 Pr> Chi sq 是>0.5 (他們的Hazard Ratio不是特別大) ,這個variable是應該除掉?

    謝謝
    宸獋憴

    回覆刪除
    回覆
    1. 是的,是逐個variable看。
      池某的model沒那麼複雜,只是針對名次=1來做,但只保留了Pr > ChiSq細過0.05的variable,其他的都刪掉了。

      刪除
    2. 謝謝池兄

      在池兄另一篇文章看到池兄在測試新增variable時要不斷比較, 在下寫了一個SAS的Macro 去把不同組合的variable合拼來自動測試,如有需要,可以交流一下以答謝池兄的回覆

      (此Macro不完善,但可以減少人手操作的時間和可以晚上讓電腦自動工作,在明天看結果再作判斷)

      宸獋憴

      刪除
    3. 咁厲害?!
      多謝好意。不過池某目前應該用不上。現在池某較關注的不是增加variable,而是每個賽日更新賽果後有沒有variable的p-value變得大過0.05。

      刪除
    4. 還好吧, 很多科研領域都會用到Logistic Regression,而選取variable係當中重中之重的,我的Macro的idea是修改了別人的idea (直接下載這些Macro是收費的).

      就現在池兄的關注,池兄可以在excel寫一個macro把不同時間的database寫出再用SAS的Macro就可以睇到variable的p-value的改變. 當然,這樣的結果是基於過去的數據. 這個idea基本上的我現在用的Macro的變種.

      宸獋憴

      刪除
    5. 兄台太強了。
      池某雖然知道SAS可以行Macro,但沒想過可以這樣用,太不思進取了。

      刪除
    6. 在下在看池兄的Blog前也不知道可以這樣賽馬。只是大家的關注領域不同。

      而且在下也不在池兄那麼無私,把智識公開。

      一些比較利害的statistian是用R or Matlab,然後可以用GPU加速運算,這些更利害。可惜在下R 和Matlab還有Statistics功力不足。

      在上面的reference問題,想請問池兄是否把reference 的名次設定為14,再針對名次=1和reference的對比?

      謝謝
      宸獋憴

      刪除
    7. 知識本來就是公開的,沒有什麼無私不無私啦,和高手們交流交流,順便偷下師,也可以讓自己腦震蕩一下。
      reference問題,池某是這樣做的。只針對名次=1做對比,reference名次設2、3、4或14都沒所謂了。

      刪除
    8. 請問池兄是用SAS的proc logistic嗎?

      在下是用SAS 9.2的 proc logistic.

      如果把名次的reference設定為=14,那樣子出來的parameters estimate便會是名次=1到名次=13和名次=14的對比,那樣子每一個variables會有13個estimate (由名次=1對比名次=14到名次=13對比名次=14).

      如果把名次reference設定為1,那樣子在parameters estimate 的p-value便會有13個 (名次=2到名次=14和名次=1的對比),這樣子的話,池兄是把所有(名次=2和名次=1到名次=14和名次=1的對比的p-value<0.5)的才留下嗎?

      問的不是太清楚,謝謝池兄費時回答。

      宸獋憴

      刪除
    9. 是的,是用proc。
      因為並非每場馬都是14匹馬上陣的,故沒必要分得那麼細。池某的做法是只比較頭馬和非頭馬。
      即名次=1與名次<>1(例如將非頭馬一律設為名次=2)對比,這樣每個variable的p-value就只有一個,一目瞭然。

      刪除
  17. 謝謝池兄。
    如果在SAS Macro上有需要幫忙的請隨便吩咐。

    回覆刪除
    回覆
    1. 好的。多謝兄台善意。

      刪除
    2. 池兄,

      如果所有的參數都是有效(跟據p-value小於0.5和Hazard ratio 不大)的情況下,two step model下的alpha beta比你覺得大約有多少可以開始盈利?

      刪除
    3. 這幾個指標的方向是一致的:p-value越細,參數越有效,有效參數越多,alpha的比例越大。
      池某的經驗是超過30個有效參數,大致可以擺脫two step model被賠率dominated的情況,超過40個有效參數,可以頗實在地感受到1 step model優於賠率,這時的alpha:beta約為1.65:1。
      池某所說的「有效」參數,是指p-value小於0.05,不是0.5。

      刪除
  18. 小弟對於用統計學為初階新手,正在追看池師的文章及留言回應及入手試學SAS當中,想請教池兄當初由零開始時,DATABASE建立找什麼參數是怎樣開始的?
    另外建立時不同路程會否有不同的DATABASE???

    回覆刪除
    回覆
    1. 所有場地、跑道、路程放進同一個database效果會好些。
      大路的參數是騎練勝出率、近績、檔位等等。

      刪除
    2. 小弟愚昧,那場地,跑道,路程會否變為一個參數?

      刪除
    3. 這些都無法成為獨立參數的,要跟一些涉及馬的數據組合,例如馬匹體重、負磅等等。

      刪除
    4. 希望沒有錯,概念是否定義把贏出的馬定義一個參數WIN
      如跑出的就把參數等如1, 其餘的馬則定義參數為0這樣?還是跑2,3把參數定義為0.5,其餘的才是0?

      刪除
    5. 參數不是自己定的,要經regression找出來。

      刪除
    6. Kelly的原則是只買有edge的馬,但有edge的馬不代表贏率最高的馬,如果數次連續不中,已經可以把本金輸掉大半,池兄點解決呢個問題?

      刪除
    7. 用某個比例的kelly。
      信報月刊裡這篇文章有談到這個問題。

      刪除
  19. 池兄,近排孖膽好難中呀, 加加埋埋都輸左幾千, 你戰況如何呀? 有無D TIPS呀?

    回覆刪除
    回覆
    1. 池某孖膽呢排應該都係輸錢,二月中之後好似只係中得幾次,好在一月份的儲備夠豐厚,仲頂得住。

      刪除
    2. 自從上月中寫好試算表之後開始只計不買的測試,也是陷入連敗。如果真下注的話,恐怕在下已經輸晒利事錢兩次,哭……

      快餐人上

      刪除
    3. 要睇大數,不能期待任切一個時間段都是暴利。

      刪除
    4. 快餐人又有問題請教。

      雖然計算上似乎有盈利空間,但是在下無法肯定自己沒有計錯數,也不知道如何驗證。想要以實戰測試,又不知道要取樣多久才算得上是「大數」。

      請問池先生,要如何測證一個方法是否有效呢?

      快餐人上

      刪除
    5. 馬會網站可以查到過去14年派彩,模擬一下近一兩年的就大致心中有數了。

      刪除
  20. 你好池兄 在下有2個問題希望閣下不吝賜教.
    1.假設想用場地的檔位勝率做factor,這樣就會衍生出田泥,田草和谷草三項,如果今次要計谷草,理論上就只取谷草那項,但如是者,是否就不取該欄的其他參數(因為前面那些參數都是一樣,例如騎練之類),唯獨是埸地檔位不同,然則所有數據都要分成田泥,田草和谷草? 還是不用理,都擺在一起,其他數據照用,唯獨埸地檔位那參數獨立抽取?

    2.如果要取馬的前幾仗的賽果來計速度,但則好之前有一場墮馬,那該場是照取樣隨便打個大概還是跳過,取下一場來計?

    回覆刪除
    回覆
    1. 1.唔止呢,即使同係田草或谷草,A、B、C不同跑道的檔位影響都是不一樣的。有些數據細分會好些,有些則相反。具體怎樣分最好,就很難把話說死了,因為factor之間是互為影響的,很視乎個人如何組合這些factor,可能每個人做出來的結果都不一樣,但有一點可以放心,那些統計指標會顯示各種做法、分法是否有效。要注意的是,田泥的sample size很細,分得太細的話容易造成較大偏差。

      2.兩種做法都可以,如果是計算幾場的平均,跳過一場影響不大;如果計算單場,大概就得。

      刪除
    2. 謝謝池兄
      在下有點懶,沒有分太細,就田泥,田草,谷草三個場就算,如果這樣所以我的所有數據就要分成3部分是嗎?

      刪除
    3. 只分所涉的factor就得,不需要分開整個database。

      刪除
  21. 那比如說A賽日是跑田草,局部就抽取田草factor,但由於整個database是包括所有場地,這樣其他不是田草的賽日在田草果項factor就會是空白,所以就填一個隨便填個數當是n/a嗎?

    回覆刪除
    回覆
    1. 用來做regression的database不會留空白,若是logit model,留有空白很難得出有意義的參數。這個例子應是以新的排位表去match已得出的參數時,只去match田草的。

      刪除
  22. 在下知識不足,不太明白
    是不是在說譬如1000場,而田草只有600場,到抽取樣本時,1000場的其他data照用,但處理田草factor時,只抽取有數據的600場(果欄400場空白的不要)?
    這樣factor數據場數雖然不平均,但還是能用?

    回覆刪除
    回覆
    1. OK,當你手上有1000場data,要估算第1001場田草賽事的機率。
      第一步,用晒1000場來做regression,不要留空,但做之前要作一些數據轉換,令不同的場地、檔位對應不同的數據(logit model是允許這樣做的)。然後得出檔位的參數。
      第二步,對應第1001場的檔位,將檔位參數乘入各個檔位數據,這裡注意檔位數據是要與第一步的檔位數據match的。

      刪除
    2. 以你呢個做法做唔做到冷門?

      刪除
    3. 謝回覆
      但問題是第一步時那1000場裡有400場不是田草的,而是谷草或田泥,變相果400場的田草factor果欄是沒有任何數據的,因為數據都在另外2欄factor(田泥/谷草),當沒有資料又不能留白時應該如何轉換呢? 現在在下是輸入0來代替空白,然後再run regression抽取田草factor來做第二步合估算第1001場田草,請問可以嗎?

      刪除
    4. //以你呢個做法做唔做到冷門?
      logit model?「極速前進」算唔算冷門?

      刪除
    5. //另外2欄factor(田泥/谷草),當沒有資料又不能留白時應該如何轉換呢?
      如果是logit model,放在同一欄,用返田泥/谷草資料就得。
      //輸入0來代替空白
      會得不到準確的參數,效果還不如分開三個model做。

      刪除
    6. 明白
      所以就是把田泥/谷草都group到田草那欄再run就行了

      刪除
    7. 正是。不必分為3個column。

      刪除
    8. 多謝池兄幫忙!

      刪除
  23. 看了不少留言. 主要是我連賽馬的基本規則都不太懂, 所以看不懂. 但感覺上用AI人工智能, 只要經過一段不短日子, 電腦absorb了大量data, 電腦系統自動找參數的準確度會愈來愈高. 所以我建議池兄不如想想可否用AI幫忙?

    回覆刪除
    回覆
    1. Joseph所說的找參數方向是對的。
      不過賭馬真正難找的不是參數,而是data,有用而與眾不同的data,例如隻馬上仗被碰多少次、走了多少冤枉路等等,呢樣AI都冇符。

      刪除
    2. 《電腦absorb了大量data》

      關鍵詞是【大量data】。在香港,每年賽馬場數並不多,就算是用10年數據,大概也只是一萬場左右吧,對AI來說,數據量並不算很足夠,更何況太舊的數據並不可靠。在香港研究賽馬,還是傳統統計學比較可行。

      MS

      刪除
    3. 有道理。找參數是一勞永逸的工作,完成後改動不大,不需要每個賽日漫無目的地找。

      刪除
    4. Actually, as far as I know, data mining has been developed for investment analysis including handicapping and in long run, will save a great deal of time to get useful parameters and modelling.

      刪除
    5. 如果是由頭起步而手上又有一個龐大的database,這是值得考慮的方向。
      樓上宸獋憴兄也提過可以以macro自動找出最優的參數組合。

      刪除


    6. 個人以為這方法並不可行。有關篩選參數,WB在其文章內曾有如此說法:

      It is important to define factors to which extract as much information as possible out of the data in each of the relevant areas.

      然後WB以一個DP6A的factor去舉例說明。有看過該文章的朋友都會同意這個DP6A參數的定義非常刁鑽。WB提到這篩選過程是progressive refinements的結果,包含了很多educated guessing及trial and error。WB並清楚說明:

      a model involving only simplistic specifications of factors does not provide sufficiently accurate winning probabilities

      說了這麼多,想說的是賽馬是一個複雜的遊戲。想從中獲利,一定要有很多insight。想要有insight就要不斷探索。這項工作是不可能交由Excel VBA macro代替。

      MS

      刪除
    7. 上述所說的macro是SAS macro,而非Excel VBA macro。意思是當你define了幾十個參數之後,讓macro將這些參數自由組合,run出一組統計指標較好的。不過池某還是認為這種做法只對剛起步未成型的model有幫助,已定型的model只會對個別參數加加減減,用不著這樣大費周章。

      刪除
  24. 池兄已去過新疆與西藏? 聽聞近年西藏已純商業化, 不知是真是假?

    西藏人身上有特別味道?

    回覆刪除
    回覆
    1. 哈哈,中國大部份地方池某都去過,新疆去過多次,西藏逗留過頗長的時間。
      商業化應是拉薩的新城區。後藏的變化沒這麼快,但去後藏的一大條件是你要耗得起時間。
      西藏當地藏族人普遍有一股濃濃的酥油味,因為他們都是喝酥油茶長大的。外地人若能習慣會喜歡這種味道,不能習慣就是個大問題,會冇覺好訓冇啖好食,當地的街道、酒店的床單、水壼裡的滾水,都是這種味。

      刪除
    2. 哇, 竟然去新疆多次, 看來是跟工作有關?

      如果連水都有味, 咁就唔自在了.

      刪除
    3. 係。有一次係工作。
      唔惹一身酥油味又點算去過西藏?呵呵。

      刪除
  25. 博主你好,我想请教一个问题。评价一个赛马模型的好坏,除了R-square test以外,还有没有其他评价标准?我举个例子,假设现在有四匹马,A,B,C,D按顺序前四名。
    A 20% 25%
    B 10% 40%
    C 50% 5%
    D 20% 30%
    第一个是公众的百分比,第二个是预测百分比。虽然预测模型的R-square比公众的要高,不过如果按照kelly分配注码的话,会把大部分的注码投到B马导致输钱。所以我觉得R-square test只考虑了头马的胜出率,没有把其他名次的考虑进去,存在一定问题。

    回覆刪除
    回覆
    1. R-square test是用來看一季或多季效果的,不能用一兩場來試。
      模型本身的Chi-square和p-value等等,也能顯示模型的好壞。

      刪除
    2. 上面是我举的一种比较特殊的例子,那假如这个模型一个赛季的预测都存在这样的问题的话,这时候R-square就不能作为一个好的判断标准了。我在想有没有可能出现一种情况:预测模型R-square test的值比公众赔率要明显好,配合kelly下注以后仍然亏损。

      刪除
    3. 不會的。即使按上述例子也是贏錢的。
      賭馬要用multi kelly,而不是簡單地代入公式計算比例。在信報月刊裡這篇文章有較詳細的說明。

      刪除
    4. 池兄,文內有沒有說明你怎樣利用自創較計得精彩還要好的計算方法?有的話立刻去買本看看!

      MS

      刪除
    5. 哈哈。宏觀的概念居多,例如為什麼要有multi kelly和simultaneous kelly的考慮。例子就只能簡化了,沒有版位作詳細的演示。

      刪除
    6. Sorry,刚刚才发现自己用kelly的时候把数字输错了,谢谢博主的解答。

      刪除
    7. 數字錯係小事,好彩唔係概念搞錯。:)

      刪除
  26. 小弟STAT知識夠差,請問池兄或各位師兄們有否一些好的網站介紹,識小弟可補習一下r square test, logit model 的概念???

    回覆刪除
    回覆
    1. 基本統計概念去圖書館搵本統計入門就得,內容大同小異。一些特別的內容如logit model可在網上search,可能會有意想不到的發現,突破自己原有的理解。

      刪除
  27. 感謝池生百忙解答本人笨問題

    回覆刪除