本文摘要:摘要:隨著互聯網、大數據、云計算的飛速發展,機器翻譯發生了巨大變化,機器翻譯譯后編輯(machinetranslationpost-editing,MTPE)模式也應運而生,逐漸成為翻譯服務業的主流模式。但若要進一步提高MTPE效率和質量,還需要相應的規范和準則加持,以幫助譯后編輯者識別
摘要:隨著互聯網、大數據、云計算的飛速發展,機器翻譯發生了巨大變化,機器翻譯譯后編輯(machinetranslationpost-editing,MTPE)模式也應運而生,逐漸成為翻譯服務業的主流模式。但若要進一步提高MTPE效率和質量,還需要相應的規范和準則加持,以幫助譯后編輯者識別機器翻譯錯誤并快速決策機器譯文是否需要進行編輯。通過介紹翻譯自動化用戶協會(TAUS)的MTPE指南的相關實踐準則,并根據文本性質和受眾選取適用準則指導進行了醫學報告的快速譯后編輯(lightpost-editing,LPE)實踐,對醫學報告文本譯后編輯實踐中存在的詞匯錯譯、分詞短語錯譯、從句錯譯以及段落錯譯、漏譯等問題進行了分析,并對該指南的實際指導意義進行了總結與評價。
關鍵詞:機器翻譯;快速譯后編輯;機器翻譯譯后編輯指南;醫學報告翻譯
近年來,機器翻譯質量得到了極大改善,信息技術已經與翻譯服務業深度融合。同時全球化和本地化催生的海量翻譯需求,傳統的純人工翻譯無法滿足且成本相對較高,新的翻譯業務類型與質量標準相較以前都有了很多變化,從而促使越來越多的企業開始用機器翻譯技術進行初步的翻譯項目處理,也就導致了譯后編輯市場的擴大。
作為提升機器翻譯質量的新模式,譯后編輯還缺少規范一致的實踐原則、質量評估標準等,因此若要該模式得到有效并廣泛的應用,還需要清晰明確的各類指導準則。2016年,翻譯自動化用戶協會(TranslationAutomationUserSociety,TAUS)發布了MTPost-editingGuidelines,這是目前可參考的較為完整的機器翻譯譯后編輯指南。本文根據該指南對醫學報告機器譯文進行了快速譯后編輯實踐,并對其指導意義及存在的問題進行了分析。
一、機器翻譯與譯后編輯
(一)機器翻譯的發展及缺陷
機器翻譯的廣泛應用產生了巨大的社會效益和經濟效益;仡櫰浒l展歷程,主要經歷了四個階段:一是基于規則(RBMT);二是基于例子(EBMT);三是統計機器翻譯(SMT);四是神經網絡機器翻譯(NMT)。神經網絡機器翻譯利用已有的大規模的真實語料庫來進行深度學習,從語料庫中自動獲取語言特征和規則,它是基于大數據、使用神經網絡來實現翻譯的機器翻譯系統[1]。神經網絡機器翻譯的發展使機器譯文質量得到了質的提升。
但即便神經機器翻譯系統使機器譯文質量飛速發展,機器譯文仍有很多局限性,自然語言處理仍有許多在實踐中難以解決的問題,比如從句錯譯、詞匯錯譯、譯文調序失敗、符號錯譯、漏譯等問題[2]。醫學報告作為醫學文本的一種,其特點就是縮略語、醫學術語使用較多,同時為表客觀及行文簡潔準確,被動語態以及分詞結構應用較多[3]。機器在翻譯醫學文本時,往往會出現術語錯譯、漏譯和詞匯替代錯譯問題,同時也會出現對被動句以及分詞結構的處理不當導致譯文含義與原文出現偏差的現象。具體可見本文第三章的實踐分析。要克服機器譯文存在的這些缺陷,使譯文質量達到要求,目前最有效快捷的方法就是對其進行人工修改、完善,即進行機器翻譯譯后編輯。
(二)譯后編輯概述
譯后編輯(post-editing)是在語言或格式方面,對機器翻譯的原始產出,即初始譯文,進行加工與修改來提高機譯產出的準確性與可讀性[4]。2010年TAUS實踐中的譯后編輯報告將譯后編輯定義為“用最少的人工改進機器生成的翻譯的過程”[5]。而針對不同要求和目的,關于機器翻譯譯后編輯的ISO18587標準將譯后編輯分為兩個級別:快速譯后編輯(LightPost-editing,LPE)、完全譯后編輯(FullPost-editing,FPE)[6]。
機器翻譯譯后編輯模式充分發揮機器翻譯的速度(效率),也充分發揮人工翻譯的精度(質量),從而既滿足翻譯市場快速發展的需求,也推動了翻譯技術的發展,還促進了學界和業界的交流與合作,豐富了語言服務產業鏈的組成[7]。不過譯后編輯作為新的翻譯工作模式,在實踐過程中除了要識別并糾正上述機器譯文各類錯誤之外,還需考慮效率、質量要求、成本等各方面因素。
因此其在發展過程中還需要獨立、一致的標準來衡量和約束譯后編輯的質量,確定譯后編輯工作量等,幫助譯后編輯者更加高效高質地完成譯后編輯任務,同時培養出更多高質量的譯后編輯人員。但目前機器翻譯譯后編輯相關的大部分實踐準則相對宏觀,如崔啟亮提出的實踐準則相對宏觀,進行實踐時還需自行確立具體規則[7]。而MidoriTatsuni提出的對MTPE譯文相關的部分要求與TAUS類似,但比較寬泛,并未針對不同的質量要求進行細致劃分,實際應用時還需綜合考慮各種因素進行細化[8]。目前相對具體的實踐準則是TAUS發布的MTPOSTEDITINGGUIDELINES,根據不同的質量要求列出了對應的原則,所以本文采用該原則指導了所選文本的譯后編輯實踐,以檢驗其是否可有效提高譯后編輯效率。
二、TAUS機器翻譯譯后編輯指南
TAUS成立于2004年,是全球語言和翻譯行業的資源中心。該協會通過自己的數據云和質量評估服務為翻譯行業提供相關的建議、工具、指標、基準和數據等。2016年,該協會發行了MTPE指南,旨在促進譯后編輯模式的發展,提升譯后編輯的質量和效率,并幫助該行業選擇、培訓高素質、高水準的譯后編輯者。該指南指出,最基本的譯后編輯質量評估準則有兩條,一是機器生成的譯文質量,二是對待翻譯材料的最終質量預期,即譯后編輯工作如何進行,取決于機器生成的原始譯文質量及客戶對譯文質量的需求[9]。該指南把預期的最終譯后編輯質量大致分為兩個等級,一級為“goodenoughquality”,另一級為“humantranslationquality”。
在選擇適用質量要求時,主要取決于目標讀者或客戶對最終譯文質量的需求(包括最終譯文的受眾或使用目的)以及初始機器譯文的質量。而對于初始機器譯文質量的評判,若花費太多時間來確定其是否可用會得不償失,降低效率。因此可在決策時間上加一些限制,若在一定時間內查看一個機器翻譯片段(在熟悉源文本和目標文本之后),發現無法輕松理解,那就舍棄機器譯文。
Mesa-Lao在其實驗分析中表明大部分測試者在初讀機器譯文上的停留時間為5~10秒左右,本文的譯后編輯實踐即以5~10秒原則來判斷是應該糾正機器譯文,還是應該刪除并重新翻譯低質量的片段[10]。同時針對最終譯文質量的不同質量預期(是“goodenoughquality”還是“humantranslationquality”)以及機器生成譯文的不同質量,也會采取不同的譯后編輯策略,即進行LPE還是FPE。
三、基于TAUS指南進行的醫學文本
譯后編輯實踐分析醫學報告屬于醫學類文本,作為科技文本的一種,對MTPE模式的適應性較強,同時有海量翻譯需求,對翻譯效率要求較高。本文選取了TheNewEnglandJournalofMedicine上的醫學報告來進行譯后編輯實踐,關于多例分析的報告,發布于2020年1月24日,全文約3000詞。本文的目的是與醫學工作者和研究者共享信息以及時有效共同應對并預防疫情,因為該流行病傳染性強,傳播速度快,加之如今交通非常發達,人員流動頻繁,所以此類文本信息翻譯非常注重準確性和時效性。
同時,此類文本譯文目標受眾為醫學專家或工作者,他們僅需了解原文概述或要點,以幫助自己了解疾病相關信息,共同做好應對準備并尋找解決辦法,所以可選擇省時高效的LPE模式進行MTPE,使最終譯文達到“goodenoughquality”的要求(下文提到的具體準則均針對“goodenoughquality”)。
本文所選擇的機器翻譯引擎為谷歌翻譯,在實踐過程中發現詞匯錯譯、分詞短語錯譯、從句錯譯以及段落錯譯、漏譯問題較多,而此前一直被視為難點的被動語態問題已不明顯;谏窠浘W絡機器翻譯強大的學習能力以及大數據的支撐,目前谷歌對被動句的處理表現較為良好,比如,筆者較早時期實踐時發現的相關問題,在幾個月之后再次用谷歌生成譯文時,發現其已經對譯文進行了改良,符合“goodenoughquality”的要求,可不再作為難點進行分析。其他相關案例具體分析如下。
(一)詞匯錯譯
例1InlateDecember2019,severallocalhealthfacilitiesreportedclustersofpatientswithpneumoniaofunknowncausethatwereepidemiologicallylinkedtoaseafoodandwetanimalwholesalemarketinWuhan,HubeiProvince,China.…Wereporttheresultsofthisinvestigation,identifyingthesourceofthepneumoniaclusters,anddescribeanovelcoronavirusdetectedinpatientswithpneumoniawhosespecimensweretestedbytheChinaCDCatanearlystageoftheoutbreak.
綜上,在本次實踐過程中發現,相當一部分機器原始譯文已符合TAUS指南中“goodenoughquality”的要求,不用做太多修改。且機器翻譯質量在持續提高,在醫學專有名詞、術語以及被動語態方面均表現良好,但對一詞多義的詞匯識別還不夠準確,問題較多,同時對長句、結構復雜的句子處理較為糟糕,如定語從句、分詞結構等,轉換時無法對句子語序進行調整,導致譯文意思出現偏差,甚至在翻譯段落時出現漏譯現象。通過使用TAUS指南指導LPE的實踐發現,指導性較強的是要求(1)(2)(4),可根據此三條要求快速做出判斷是否應對機器譯文進行LPE。因本次實踐中未遇到文化上不妥和侵犯信息,以及因本文為英譯漢,漢語無拼寫問題,所以要求(3)和(5)關于文化和拼寫問題不用討論。
要求(4)在應用時應注意盡可能多地保留機器初始譯文是建立在機器譯文質量較高的基礎上,譯者應迅速做出判斷是否舍棄機器譯文進行人工翻譯,否則時間成本反而更高。要求(6)無需進行僅跟文風相關的改正和(7)不需僅為改善譯文流暢度進行句子重組,就允許我們保留一些不符合中文語言習慣但句子含義表達正確的機器譯文而無需進行修改,如例1僅修改了詞匯錯譯的部分,其余均保留機器譯文,節約了很多時間。通過使用TAUS指南,在進行譯后編輯時會更有目的性,標準更加明確,可盡量避免做一些不必要的修改導致時間成本和人工成本的浪費。當然,TAUS指南仍有許多不足之處,依舊不夠具體,有待在實踐應用中繼續完善。
四、總結
語言服務行業采用機器翻譯譯后編輯模式來提高翻譯效率和翻譯質量,也需要統一規范的標準來幫助評估工作質量并定價,同時好的規范還可以促進MTPE模式效率和質量的進一步提升,如本文按照TAUS指南對“goodenoughquality”的要求進行快速譯后編輯時,目標更加明確和清晰,避免譯后編輯過程中因標準不確定進行不必要的編輯,導致比純人工翻譯耗時更長的情況發生。
且此類醫學報告信息交流的時效性尤為關鍵,因為流行病的傳播快、傳染性強,信息能夠更快實現共享,就可能更早更有效地防控疾病更大范圍傳播,就可能幫助各國醫務工作者共同合作更早研究出應對方法。因此,采取較高的機器初始譯文質量加清晰的譯后編輯要求(規則)可幫助譯后編輯者們在更短時間內獲得符合預期的譯文。當然,本文所遵循的TAUS指南也依舊存在需要改善或進一步細化的地方,相信隨著機器翻譯譯后編輯的發展,更加完善的規范會生成,機器翻譯譯后編輯模式也會更加成熟高效。
參考文獻:
馮志偉.機器翻譯與人工智能的平行發展[J].外國語,2018,41(6):35−48.
[1]羅季美,李梅.機器翻譯譯文錯誤分析[J].中國翻譯,2012,33(5):84−89.
[2][3]劉玉強,賀子瓊.醫學英語的文體特征及其翻譯策略[J].英語廣場,2015(10):35−36.馮全功,崔啟亮.譯后編輯研究:焦點透析與發展趨勢[J].上海翻譯,2016(6):67−74,89.
[4]TAUS.Post-editinginPractice[EB/OL].(2010-03-10)[2020-08-20].
[5]ISO.ISO18587:2017Translationservices—Posteditingofmachinetranslationoutput—Requirements[S].ISO,2017.
[6]崔啟亮.論機器翻譯的譯后編輯[J].中國翻譯,2014,35(6):68−73.
作者:仲晨陽,倪 蓉
轉載請注明來自發表學術論文網:http://www.zpfmc.com/wslw/29151.html