Main menu
  • 電腦翻譯文字 算法不斷改良

    文匯報 2018年12月14日

    電腦翻譯文字 算法不斷改良

    自動翻譯軟件大行其道,只要打開翻譯網站或應用程式,即能輕鬆進行文字、語音甚至視像翻譯。自動翻譯的效果並非完美,仍有不少改善空間,不過大家可曾想過,電腦究竟是如何翻譯的呢?縱觀70年來的機器翻譯發展史,電腦翻譯主要有四種方法。

    第一種方法是採用語法規則,早年的翻譯系統多運用此法。語言專家或工程人員編寫翻譯規則,而系統根據這些規則翻譯。簡單的翻譯系統先按照規則字字對譯原文,再調整譯文語序;複雜的系統則分析原文的句子結構甚至語義,將之轉化為內部形式,然後才重組為譯文。規則用於總結簡單的語言現象十分方便,但設計規則需要大量語言學知識,而且規則難以涵蓋所有情況。

    第二種方法是重用翻譯例句,這種方法源於上世紀80年代。系統設計人員搜集雙語例句,然後電腦抽取相關語句,加以重組,以成新譯。此法模仿人類翻譯的過程,通過修改已有譯例生成譯文,理論上不需要任何語法規則,可是若例句數目不足,或者待譯原文與已有譯例大相逕庭,則需要其他方法配合。

    第三種方法是運用統計數據,這種方法在上世紀80年代末、90年代初提出,也稱為統計機器翻譯。此法同樣運用雙語例句,不過重點放在語言模型及翻譯模型之運算,運用數據計算翻譯概率及譯語流暢度,找出合適的譯文。

    此舉靈活運用譯例,並非直接重用例句,而是透過統計發掘其中規律,翻譯表現有所提升,成為之後十多年間自動翻譯的主流。不少有名的網上翻譯平台均曾採用這種方法。

    第四種方法是神經網絡翻譯。近年神經網絡在不同領域均取得矚目的成就,如圖像處理、數據預測、無人駕駛等,當然也少不了機器翻譯。這種方法是運用翻譯例句,訓練神經網絡,網絡從例句中學習,自行生成譯文。訓練的時候一般需要大量數據,對硬件的運算能力也有一定要求,不過譯文往往比較流暢。

    自動翻譯的具體方法還有很多,無法在此為大家一一介紹。放眼未來,隨着電腦運算能力進一步提升,加上數據持續增加,算法推陳出新,不斷改良,相信很快會有更多電腦翻譯的新方法,大家可以拭目以待。

     

    香港恒生大學商務翻譯(榮譽)學士課程總監 蕭世昌博士

    HSUTranslation Facebook