2017年4月24日 星期一

翻譯

之前看到Cherry談及blog文被讀者用Google translate整篇翻譯,池某也開始留意一下流量來源是否有這種“怪事”。當然,心裡是不抱什麼期待的。畢竟,程式賭馬、統計賭波,甚至量化投資等等,本來就是鬼佬的玩意,正常人都會看原汁原味的外文文章或英譯中版本,看中譯英版本完全沒有必要。意外的是,“怪事”還是零零星星地發生了,其中在流量來源出現得最多的是這篇:


乍看之下池某也搞不清楚這是哪篇文章,就算睇埋內文,也想不起哪篇blog文是用“四個星期日”開頭的。根據發表日期翻查,才發現被譯作“Small production works”的其實是“小製作 大工程”。而內文的“four Sunday”,則是機器翻譯將“四個星期日以繼夜”分詞錯誤所致。

機器翻譯是否可靠,是個見仁見智的問題。若只以模糊正確為目標,再加上自己的猜想作補救,會較容易接受。有國際版的翻譯員就曾對池某說,Google translate太強大了,英譯中連中國過去的外交政策叫“韜光養晦”也能準確譯出,如果其他錯誤率再降低一些,國際版翻譯員都要失業了。

若把要求提高一些,則不難發現機器翻譯仍有很多未能克服的盲點,除了上述提及的分詞問題,古文、古詩詞(例如那個經典的“松下問童子”的例子)、缺乏上文下理的抽象語句,或者地方的方言俗語等等,機器翻譯都拙於應付。

大概兩三年前,池某公司新來的翻譯員處理一篇鬼佬文章時,練精學懶偷偷用Google translate做來,以為可以“過骨”,結果把內文描述朱鎔基就任總理時當時的美國財長Lawrence Summers仆去北京“kiss Zhu's ring”,直譯成“親吻朱的戒指”,她那不學無術的主管還以為執到寶,學人玩Gimmick直接用這句來起題,氣得池某沒留下半句解釋就把她們的勞動成果刪到垃圾桶。

機器翻譯、語言識別等語言處理問題,早在上世紀八十年代在美國就有富有成果的研究,理論上無論是美式俗語還是英式俗語都應能準確掌握,沒理由經過幾十年發展仍犯這種“低級錯誤”。實際上,機器處理語言的語法規則確實是經歷了幾十年而無顯著突破。因為機器並不能真正“學習”語言,只是根據統計語言模型(Statistical Language Models)來處理語言問題。

所謂統計語言模型,簡單地說,就是利用conditional probability,計算一個文字序列構成某個有意義句子的可能性。咦?聽起來似曾相識,像池某這樣的小賭徒,把文字序列的詞語換成贏馬因素,不就變成可以計算頭馬的可能性嗎?同樣道理,換成股票的升跌因素,應該也能計算股票升跌的可能性。

現實確是這樣的。機器處理語言之所以經歷了幾十年而無突破,原因之一應是上世紀八九十年代在這個領域研究處於領先地位的猛人忽然集體消失了。他們哪裡去了?正正就是把相關理論和技術應用到股票投資,集體轉戰華爾街,還個個賺到盤滿鉢滿。

下回再談。

27 則留言:

  1. 好在唔係 kiss zhu's ass, 否則便是「親豬玀」了。

    回覆刪除
  2. 哈哈池兄,相信你另一篇文“隔山打牛”,將會被Google translate譯做“Separate Hill Hit Cow” XDD

    回覆刪除
    回覆
    1. 唔出奇喎,池某啱啱學識「強勁無匹」譯做Strong and unmatched。XD

      刪除
  3. 想知池兄會不會睇賽事片做功锞?

    回覆刪除
    回覆
    1. 冇睇片。冇咁多精力同時間。
      有時間睇成績可能會好D。

      刪除
  4. 我打口語佢譯唔到...

    另, IPHONE 開始拍片可以有埋即時翻譯字幕了!

    回覆刪除
    回覆
    1. 呵呵。池某D文都夾雜好多廣東話俗語,Google translate應該譯唔掂。

      刪除
  5. 即係咁, 無論電腦AI如何強化, 有一d普通小孩好容易掌握既tasks, 例如在一張相中辨別動物, 現階段電腦依然不能做到.

    我個人認為個focus應該係AI可以幫人類做一些機械化的東西, 從而提升人的生活, 所以人與AI機械人應是五相配合去生活. 而不是害怕機械人會在將來取代人類, 呢d情景只會係電影中出現

    回覆刪除
    回覆
    1. 人和電腦解決問題的特長不一樣,但同時利用兩者特長解決問題的方法還是要由人來定。

      刪除
    2. AI已經能夠認貓了吧。

      現在的電話相機至少能夠判別鏡中人的人頭在哪,人臉辨識系統也不稀罕了,這些在十年前也被大眾認為是遙不可及的。

      所以AI的優勢並非只有「快」,還有它的可持續發展。只要一個突破,例如近年的機器學習,就讓AI從不能辨別貓,進化為可以通過海量的貓圖片來分辨出貓是甚麼。雖然那個海量真的很海,但是電腦要「看」完那海量圖片,未必就快不過普通家長教孩子認貓的速度。而且當一個AI學懂認貓,其他AI只要分享一下,立即也能認貓了。

      但是家長教孩子認貓的速度,別說十年,恐怕對比五千年前,也沒有提升多少。

      個人認為能夠像人類般獨立思考,獨自完成繁複任務(如打掃、烹飪、會計)的強人功智能,最慢也會於有生之年內實現。最快,大概能在現代年青人退休前普及,取代他們的工作。

      不過,除了人工智能以外,還有另外的研究是發展人機連接的。在發展出具備人類級思考能力的強人工智能的同時,大概也會發展出讓人類擁有電腦級數據處理能力的裝置。

      人工智能不會、也無意成為支配者,反而像電影《智能叛變》那種「為你好」式的失控還比較危險。看看現在的怪獸家長就知道,為了「好」而失去的,未必就是孩子願意的,孩子只是無力反抗而已。

      快餐人上

      刪除
    3. 說到重點了,那就是怎樣「教」電腦從「海量」的訊息中辨別一些有用的特征。

      刪除
    4. 快餐人:
      我是指, 一張圖中, 有不同動物去辨別. 現在的AI肯定不能做到. 將來有機會做到, 或許在十年內也說不定.

      我對AI的進展不如你這般樂觀, 事實上, 有一些事情是人類可以輕易做到, 機械卻不能, 很難完全在一個留言中解釋.

      AI可以完成繁複任務, 但有一些需要intuition的東西, 我看不出AI如何可以自己有intuition. 其實不用經常比較AI與人,根本兩者是互相配合呢.

      人機連接, 我也覺得這方向很有趣.

      刪除
    5. 機械學習好像是把海量資訊打上標籤,再讓程式自行進行海量乘海量的比對,從而找出其中規律的。

      至於直覺方面,或者模糊邏輯系統可以解決……嗎?

      不過戴個頭盔先,在下不是專業,只是Google一下來吹水而已。

      快餐人上

      刪除
  6. https://www.transunion.hk/zh

    池兄,借你的blog問下,有無其他人被環聯公司所謂的7日免費信貸評級服務為誘餌,從而被騙取每月280元月費的事情中受害呢 ?

    回覆刪除
  7. 池兄你好,之前見池兄很常提起用「Hazard ratio」作指標決定要否篩去某些 predictors,但我無法想像該如何把它應用在 regression 中。

    就我手上的資料看,粗略而言,「Hazard ratio」多用於追蹤研究,例如比較兩組病人——一組服用測試藥物;一組服用安慰劑——他們的病發率隨時間 diverge 的幅度。換句話說,「Hazard ratio」用於比較研究組和對照組之間有沒有明顯差別。

    然而,「計算馬匹勝出機率、入位機率」似乎又與「含時的追蹤研究」大纜都扯唔埋,所以小弟很好奇池兄說「比較 predictor coefficient 的 hazard ratio」具體其實是什麼一回事。或者說,「predictors」的「hazard」具體是什麼 event?

    回覆刪除
    回覆
    1. 和追蹤研究中的Hazard ratio應是不一樣的。
      在SAS中,Analysis of Maximum Likelihood Estimates裡的Hazard ratio被定義為exponential of parameter estimate,好像SPSS裡有另一個叫法。

      刪除
    2. 噢,所以 exp(coefficient) 會是一個篩選指標?

      小弟其實手邊剛好有 Information matrix (做 second derivative D 到我爆炸),所以順手做 wald test。但其實我不知道 wald test 有沒有比其他 test 來得好的。

      池兄有沒有研究過類似課題?

      刪除
    3. 池某沒有研究過這類課題。嚴格來說exp(coefficient)不能算是一個篩選指標,因為並不存在一個具體的指標數字,特別是coefficient有正有負時更難確定。只是池某在實際執行中發現如果有參數Hazard ratio相對特別大(遠遠大於其他參數),對於之後的預測會較偏向random,故寧願放棄這類參數。

      刪除
    4. 明白,所以換句話說池兄是盡量篩走極遠於零的 coefficient 以避免某些 predictors dominate 你的 model 或者避免 over fitting?

      抱歉問題似乎有點多,但池兄之前也提起過 two step model 的 alpha 和 beta,試過它們具體是何種參數?會否有相關 paper 可供研讀?

      刪除
    5. Two step model比較容易理解。
      直接用以各種參數算出上陣馬匹的概率作為expected odds,為之one step model;用one step model的結果和real odds再做一次regression,得出新的expected odds,為之two step model。在two step model只有兩個參數,一個是one step model的coefficient,一般稱作alpha,另一個是賠率的coefficient,就是beta。
      之前有blog友貼過相關的paper,但一時之間想不起在哪篇文章的留言中。

      刪除
    6. 找到了:
      http://www.bjll.org/index.php/jpm/article/download/419/450

      刪除
    7. 換句話說,alpha 是 first step 的估計結果參數,而 beta 是 second step 即是賠率的參數。
      alpha/beta 越大,代表比公眾(加大鱷)估計越準確。似乎是很不錯的指標。謝謝池兄!!

      刪除
    8. 是的,在one step model找到的有效參數越多,結果就會令alpha/beta越大,亦即更有贏錢優勢。

      刪除