積微錄: 翻譯

2017年4月24日星期一

翻譯

之前看到Cherry談及blog文被讀者用Google translate整篇翻譯，池某也開始留意一下流量來源是否有這種“怪事”。當然，心裡是不抱什麼期待的。畢竟，程式賭馬、統計賭波，甚至量化投資等等，本來就是鬼佬的玩意，正常人都會看原汁原味的外文文章或英譯中版本，看中譯英版本完全沒有必要。意外的是，“怪事”還是零零星星地發生了，其中在流量來源出現得最多的是這篇：

乍看之下池某也搞不清楚這是哪篇文章，就算睇埋內文，也想不起哪篇blog文是用“四個星期日”開頭的。根據發表日期翻查，才發現被譯作“Small production works”的其實是“小製作　大工程”。而內文的“four Sunday”，則是機器翻譯將“四個星期日以繼夜”分詞錯誤所致。

機器翻譯是否可靠，是個見仁見智的問題。若只以模糊正確為目標，再加上自己的猜想作補救，會較容易接受。有國際版的翻譯員就曾對池某說，Google translate太強大了，英譯中連中國過去的外交政策叫“韜光養晦”也能準確譯出，如果其他錯誤率再降低一些，國際版翻譯員都要失業了。

若把要求提高一些，則不難發現機器翻譯仍有很多未能克服的盲點，除了上述提及的分詞問題，古文、古詩詞（例如那個經典的“松下問童子”的例子）、缺乏上文下理的抽象語句，或者地方的方言俗語等等，機器翻譯都拙於應付。

大概兩三年前，池某公司新來的翻譯員處理一篇鬼佬文章時，練精學懶偷偷用Google translate做來，以為可以“過骨”，結果把內文描述朱鎔基就任總理時當時的美國財長Lawrence Summers仆去北京“kiss Zhu's ring”，直譯成“親吻朱的戒指”，她那不學無術的主管還以為執到寶，學人玩Gimmick直接用這句來起題，氣得池某沒留下半句解釋就把她們的勞動成果刪到垃圾桶。

機器翻譯、語言識別等語言處理問題，早在上世紀八十年代在美國就有富有成果的研究，理論上無論是美式俗語還是英式俗語都應能準確掌握，沒理由經過幾十年發展仍犯這種“低級錯誤”。實際上，機器處理語言的語法規則確實是經歷了幾十年而無顯著突破。因為機器並不能真正“學習”語言，只是根據統計語言模型（Statistical Language Models）來處理語言問題。

所謂統計語言模型，簡單地說，就是利用conditional probability，計算一個文字序列構成某個有意義句子的可能性。咦？聽起來似曾相識，像池某這樣的小賭徒，把文字序列的詞語換成贏馬因素，不就變成可以計算頭馬的可能性嗎？同樣道理，換成股票的升跌因素，應該也能計算股票升跌的可能性。

現實確是這樣的。機器處理語言之所以經歷了幾十年而無突破，原因之一應是上世紀八九十年代在這個領域研究處於領先地位的猛人忽然集體消失了。他們哪裡去了？正正就是把相關理論和技術應用到股票投資，集體轉戰華爾街，還個個賺到盤滿鉢滿。

下回再談。

27 則留言:

不敗的魔術師2017年4月24日晚上9:13
好在唔係 kiss zhu's ass，否則便是「親豬玀」了。
回覆刪除
回覆
Cherry2017年4月24日晚上9:27
哈哈池兄,相信你另一篇文“隔山打牛”,將會被Google translate譯做“Separate Hill Hit Cow” XDD
回覆刪除
回覆
匿名2017年4月25日凌晨12:22
想知池兄會不會睇賽事片做功锞?
回覆刪除
回覆
LCK10282017年4月25日凌晨12:57
我打口語佢譯唔到...

另, IPHONE 開始拍片可以有埋即時翻譯字幕了!
回覆刪除
回覆
joseph leung2017年4月26日凌晨12:30
即係咁, 無論電腦AI如何強化, 有一d普通小孩好容易掌握既tasks, 例如在一張相中辨別動物, 現階段電腦依然不能做到.

我個人認為個focus應該係AI可以幫人類做一些機械化的東西, 從而提升人的生活, 所以人與AI機械人應是五相配合去生活. 而不是害怕機械人會在將來取代人類, 呢d情景只會係電影中出現
回覆刪除
回覆
joseph leung2017年4月26日凌晨12:31
期待下一回.
回覆刪除
回覆
水晶皇2017年4月26日上午11:51
https://www.transunion.hk/zh

池兄，借你的blog問下，有無其他人被環聯公司所謂的7日免費信貸評級服務為誘餌，從而被騙取每月280元月費的事情中受害呢？
回覆刪除
回覆
匿名2017年5月16日下午6:44
池兄你好，之前見池兄很常提起用「Hazard ratio」作指標決定要否篩去某些 predictors，但我無法想像該如何把它應用在 regression 中。

就我手上的資料看，粗略而言，「Hazard ratio」多用於追蹤研究，例如比較兩組病人——一組服用測試藥物；一組服用安慰劑——他們的病發率隨時間 diverge 的幅度。換句話說，「Hazard ratio」用於比較研究組和對照組之間有沒有明顯差別。

然而，「計算馬匹勝出機率、入位機率」似乎又與「含時的追蹤研究」大纜都扯唔埋，所以小弟很好奇池兄說「比較 predictor coefficient 的 hazard ratio」具體其實是什麼一回事。或者說，「predictors」的「hazard」具體是什麼 event？
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2017年4月24日 星期一

翻譯

27 則留言:

2017年4月24日星期一