過去半年,人工智能聊天機械人成為全球熱話,以生成式預訓練語言模型為基礎,根據用家指示完成大大小小的工作,從一般問答到撰寫草稿,從設計旅遊行程到解答人生疑惑,可謂包羅萬有,成為自然語言處理領域的一大亮點。

機械人功能如此強大,大家自然會想到可否用於翻譯。根據近月學者加上筆者的研究,聊天機械人在翻譯科技領域的確有不少潛力,然而若要成為正式的翻譯工具,仍有待改善。

智能聊天機械人與網上自動翻譯平台本屬同源。業內首先出現的是用於自動翻譯的人工神經網絡,後來發現這些網絡的用途不限於翻譯,透過增加訓練數據和參數量,還可用於其他工作,於是數年間逐步發展成聊天機械人。

舉例來說,筆者2019年和2022年開發的兩款用於專門領域的自動翻譯平台,便是用上跟智能機械人同一類型的神經網絡,不同之處在於網絡大小和訓練規模。

因此自動翻譯平台遇到的問題,也有可能出現在聊天機械人之中。專門領域的翻譯便是一例,要是機械人的訓練數據不適用於專門領域,譯文術語和風格或會出現偏差,情況與自動翻譯相似。

機械人訓練數據以英文為主

此外還有兩點宜多加留神:其一是對中文的支援。目前熱門的機械人,訓練數據以英文為主,雖然對於中文也有基本的認識,但不難發現其理解和寫作能力其實不如英文。舉個簡單的例子,「年初一」和「年廿八」大家都知道前者指正月初一,後者為臘月廿八日,機械人卻可能按字面解作一年裏的第一日和第二十八日。

其二是胡言亂語。機械人喜歡瞎編胡說大家都知道,行內稱之為「幻覺」(hallucination)。機械人翻譯時會否有幻覺呢?例如翻譯一段今年3月的政府新聞稿,內容關於特首和隨行官員訪京,機械人卻停留在兩年前的時空,特首是誰不清楚,更甚者虛構文中官員和部門名字,而非按照原文翻譯。譯後編輯的重要程度可想而知。

綜上所述,縱然聊天機械人在不同領域的表現令人眼前一亮,惟在翻譯上仍有進步空間,大家將之用作翻譯工具,必須小心謹慎。特別是缺乏雙語或翻譯訓練者,更應步步為營。就目前技術水平而言,將之作為跨語言溝通工具,私人交流無傷大雅,正式場合卻是相當危險的。尤其是與自動翻譯相比,機械人有着流利地說謊話的「本事」,用家比以往要有更深厚的語言功力和專業知識,方能判斷真偽,而不會反過來遭機械人玩弄於股掌之中卻全然不覺。

大家或許會問,倘若把聊天機械人作為「翻譯拍檔」,會不會有什麼重要的技巧呢?根據筆者多年來與神經網絡和語言模型打交道的經驗,答案當然是肯定的,不過此乃別話,有機會再談。

◆ 蕭世昌 香港恒生大學翻譯及外語學院副教授