【恒大譯站】建專門翻譯模型 確保行文合風格
文匯報 2023年3月21日
【恒大譯站】建專門翻譯模型 確保行文合風格
人工智能近年取得重大突破,原因之一是深度學習的急速發展。深度學習講求人工神經網絡的應用,透過大量訓練數據,利用梯度下降和反向傳播等方法,調整網絡內動輒數以億計的參數,讓網絡自行學習完成複雜的工作,如物件辨識、自動生成等。回顧2022年,深度學習成果甚豐,各類文字、圖像的自動生成系統質素大大提升,代表作少不了近月席捲全球的ChatGPT問答系統,短時間內吸引大量用戶。
深度學習對於翻譯科技領域也有深遠影響,最重要的莫過於自動翻譯。以往自動翻譯多根據語言規則或統計翻譯模型生成結果,現在則離不開神經網絡,又稱神經機器翻譯。各種網絡大放異彩,如遞歸神經網絡、卷積神經網絡、基於自注意力的神經網絡等,讓人目不暇給。
值得注意的是,神經網絡雖然強大,實際運用仍有限制,特別是要控制網絡輸出特定結果並非易事,加上訓練數據跟用家的輸入文本若有重大差異,輸出結果未必盡如人意。
就神經機器翻譯而言,處理一般文字時,以上問題不大,大不了多花點時間進行譯前和譯後編輯。不過要是翻譯正式文本,有些語句須遵循官方譯法,若加上遣詞用字與一般文本有別,用家或需要不少精力修改結果,確保譯語正確和風格恰當。
筆者最近的翻譯科技項目,目的之一就是改善此情況。項目獲研究資助局支持,旨在探討特區政府新聞公報翻譯。新聞公報是特區政府與市民之間的重要溝通橋樑,由不同部門發布,中英文兼備,翻譯科技有助於雙語公報的刊行。新聞公報的特色是不少內容有固定譯法,如部門、組織等名稱乃至引用的法律條文等,而且行文有自己的風格,倘若翻譯系統僅僅利用普通文本訓練而成,譯文仍有不少尚待改進之處。
為此,項目開展了兩項工作。第一是為新聞公報建立專門翻譯模型,訓練數據除了普通文本,同時有新聞公報,讓神經網絡熟悉其中的用詞和行文特色,令譯文更貼近相關風格。
第二是整合翻譯記憶庫。一般的記憶庫為譯者而設,提供雙語譯例,幫助重用以前翻譯過的句子,節省時間;此研究項目的記憶庫則主要配合上述翻譯模型,除收錄句子外,也包括一些專門用語的官方譯本。自動翻譯前,電腦先透過記憶庫看看原文中哪些地方已有舊譯,直接取而代之,其他沒有舊譯的才進行自動翻譯。如此一來,譯文盡可能採用官方譯法,提升準確度。
完成以上工作後,翻譯系統表現有大幅度改善,有些譯文甚至不用譯後編輯。人工智能潮流之下,如何靈活結合深度學習和其他技術提升輸出水平,實為研究關鍵,期待未來各方面有更豐碩的成果。
◆ 蕭世昌博士 翻譯及外語學院副教授
香港恒生大學