随着(zhe/zhuó/zhāo/zháo)經濟全球化的發(fā/fà)展,國際知識産權戰略的重要(yào / yāo)性日益突顯。我們不僅要(yào / yāo)将日本國内的專利信息傳遞給全世界,還要(yào / yāo)把握世界其(qí)他國家(jiā)的專利申請情報。各類專利文獻的精确翻譯不可(kě)或缺,專利文獻的翻譯量也由此猛增。然而(ér),傳統人力翻譯在成本和速度方面的弊端使得(dé / de / děi)其(qí)難以勝任海量翻譯的重任。爲解決這一難題,人們将目光移向了機器翻譯。
2019年(nián)5月,日本專利廳專利信息公開平台開始啓用(yòng)全新“機器翻譯系統”,該機器翻譯系統采用(yòng)強大的機器翻譯引擎。這一引擎由日本情報通信研究機構(以下(xià)簡稱“NICT”)主導研發(fā/fà),東芝數字解決方案株式會(huì)社長期積累的自(zì)然語言處理技術也給予了支持。
爲實現快速、準确、自(zì)然的翻譯目标――在開發(fā/fà)過(guò)程中,隻有将人工智能(néng)的快速學習與技術人員的知識經驗融合在一起,才能(néng)突破重重技術難關。
東芝數字解決方案株式會(huì)社 ICT解決方案事(shì)業部 政府部門解決方案技術第二部 三宅悠紀子
信息通信研究機構(NICT)高級語音翻譯研究開發(fā/fà)推進中心 副主任 隅田英一郎
日本專利廳 總務部總務科專利信息室 主任助理 目黑光司
東芝數字解決方案株式會(huì)社 ICT解決方案事(shì)業部 政府部門營業第四部 西本俊之
一、混合型機器翻譯 讓專利文獻翻譯工作更簡單
在保護日本科技成果,促進科技創新方面,專利審查工作發(fā/fà)揮着(zhe/zhuó/zhāo/zháo)極其(qí)重要(yào / yāo)的作用(yòng)。專利審查員在審查專利過(guò)程中,需要(yào / yāo)查明新技術與現有技術之間的區别,并合理設定專利權。
日本專利廳總務部信息室主任助理——目黑光司先生(shēng)參與了機器翻譯項目的全過(guò)程,包括系統采購到實施監測。據他講,日本專利廳的使命是“執行(háng / xíng)全球最快、最高質量的審查工作”。
“我們專利廳的業務工作主要(yào / yāo)分兩大塊:一、調查海量增長的國外專利技術文獻;二、将審查結果發(fā/fà)送到國外,幫助日本企業順利取得(dé / de / děi)國外專利授權。”(目黑)
“爲完成這些業務,我們必須将日語審查結果翻譯成英語,并将世界各國的專利文獻翻譯成日語。在此需求上,我們更新了專利信息平台(J-PlatPat),并着(zhe/zhuó/zhāo/zháo)手構建新型機器翻譯系統。爲實現“全球最快、最高質量審查”的目标,新型機器翻譯系統中翻譯速度和翻譯品質是最重要(yào / yāo)的兩點。
全球專利申請數量變化統計
通過(guò)公開競标,東芝數字解決方案株式會(huì)社(東芝集團旗下(xià)公司,主要(yào / yāo)業務是采用(yòng)系統集成、人工智能(néng)和物聯網等手段,爲用(yòng)戶提供服務解決方案)成功拿下(xià)這筆訂單。該公司的西本俊之和三宅悠紀子參與了從招标、提案到正式發(fā/fà)布的全過(guò)程,西本俊之擔任營業負責人,三宅悠紀子擔任翻譯品質的技術負責人。
“東芝長期緻力于(yú)機器翻譯技術開發(fā/fà)工作。主要(yào / yāo)采用(yòng)基于(yú)規則的機器翻譯引擎1(以下(xià)簡稱RBMT)。針對(duì)此次中标的機器翻譯系統項目,我們首先考慮的是,要(yào / yāo)與現有開發(fā/fà)成果銜接起來。因此,我們采用(yòng)了RBMT提案。然而(ér),在即将采購之時,我們發(fā/fà)現RBMT不能(néng)達到翻譯質量要(yào / yāo)求,到底是什麽原因呢?……我們甚至考慮過(guò)放棄這一提案。我無意中想起曾經與NICT合作的往事(shì),當時,NICT将翻譯引擎技術轉讓給了我們,我還特地去(qù)拜訪了隅田先生(shēng)。”(西本)
1 基于(yú)規則的機器翻譯引擎:基于(yú)辭典和語法知識的機器翻譯。此外,還有基于(yú)海量對(duì)譯數據(雙語對(duì)照格式數據)的統計機器翻譯、基于(yú)深度學習技術的神經機器翻譯。
NICT在專利文件機器翻譯領域的研究成果頗豐,且與日本專利廳保持着(zhe/zhuó/zhāo/zháo)良好的合作關系。除此以外,NICT還擁有數億條世界最大的專利文獻數據對(duì)譯,并依托海量對(duì)譯數據開發(fā/fà)了先進的神經機器翻譯系統(以下(xià)簡稱“NMT”)。NICT科研負責人——隅田欣然接受了西本的咨詢請求,兩人開始就(jiù)技術轉讓問題進行(háng / xíng)交流。
“爲了普及翻譯技術,NICT一向對(duì)外提供本研究所(suǒ)開發(fā/fà)的翻譯引擎和程序。雖說這是NICT的使命,但并不代表我們可(kě)以向任何企業轉讓翻譯技術。接受技術轉讓的企業必須有堅實的技術後(hòu)盾作爲保障,否則,我們苦心研發(fā/fà)的翻譯技術将無法得(dé / de / děi)到普及。
在這方面,東芝擁有豐富的機器翻譯開發(fā/fà)經驗,而(ér)我們在統計機器翻譯(以下(xià)簡稱“SMT”)技術轉讓方面亦擁有衆多實際案例。關于(yú)專利領域機器翻譯技術轉讓問題的讨論,我當然願意參與。”(隅田)
東芝部分翻譯引擎介紹
2 BLEU值:将正确譯文與機器翻譯結果進行(háng / xíng)比較,根據相似度對(duì)翻譯質量進行(háng / xíng)評估的指标。得(dé / de / děi)分從0%到100%。得(dé / de / děi)分越高,翻譯質量越高。
首先,東芝團隊列出了翻譯引擎備選名單,其(qí)中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見和建議,選出最适合專利文檔的翻譯引擎。
“使用(yòng)各個引擎翻譯1000多個文檔,評估每種引擎的精度以及在文章翻譯方面的優點和缺點。隻有自(zì)己親眼查看和對(duì)比這些翻譯結果,才能(néng)夠選出最佳方案。”(西本)
“随着(zhe/zhuó/zhāo/zháo)招标提案工作的推進,爲了實現精準自(zì)然的翻譯效果,我們不斷優化機器翻譯系統。
比如(rú),RBMT适用(yòng)于(yú)文檔前半部分和最尾端,NMT适用(yòng)于(yú)文檔中間部分。基于(yú)這種情況,要(yào / yāo)實現高質量專利文檔翻譯,需要(yào / yāo)構建複雜的翻譯引擎。事(shì)實證明,全部使用(yòng)單一翻譯引擎,是無法确保翻譯質量的。”(三宅)
每種引擎翻譯1000多個文檔,每個文檔的翻譯稿件都需要(yào / yāo)仔細檢查。通過(guò)這種笨拙的測試方法,我們最終發(fā/fà)現:以NMT爲主,合理使用(yòng)RBMT和SMT的混合型翻譯引擎是最佳選擇。對(duì)于(yú)翻譯前後(hòu)的處理工作,我們認爲采用(yòng)東芝長期積累的自(zì)然語言處理技術更合适。這樣一來,既引入了最先進的NICT引擎,又能(néng)發(fā/fà)揮出東芝在機器翻譯領域的優勢。
二、升級機器翻譯機制 解決長篇翻譯難題
經過(guò)不懈努力,2018年(nián)4月,東芝數字解決方案株式會(huì)社在公開競标中成功拿下(xià)機器翻譯系統訂單。以實現1年(nián)1個月後(hòu)——2019年(nián)5月系統啓動爲目标,開始了開發(fā/fà)工作。爲了達到理想的翻譯效果,公司成立了兩個團隊,分别負責翻譯質量和翻譯速度。
“我們要(yào / yāo)求的不僅僅是翻譯的質量和速度,價格、成本等方面也必須通過(guò)評估。東芝數字解決方案株式會(huì)社不隻使用(yòng)最新的NMT翻譯引擎,還構建了完善的引擎支持系統,以确保翻譯引擎穩定運行(háng / xíng)。
我們對(duì)機器翻譯系統提出的要(yào / yāo)求是:不僅要(yào / yāo)保證翻譯質量,還必須适用(yòng)于(yú)專利信息平台。顯然,逐句翻譯無法滿足要(yào / yāo)求,文章以幾頁爲單位傳給機器翻譯系統,由翻譯系統進行(háng / xíng)文檔分割,再并行(háng / xíng)進行(háng / xíng)翻譯。”(目黑)
“一般來說,機器翻譯不擅長翻譯長句,句子越長,需要(yào / yāo)處理的時間就(jiù)越多。使用(yòng)預處理進行(háng / xíng)長句分割方法,能(néng)夠提高翻譯質量。機器翻譯系統首先用(yòng)RBMT對(duì)日語長句結構進行(háng / xíng)分析,在長句中的意思轉折位置做标記。再将完成分割标記的文檔傳送到NICT的NMT中。這種無縫協作确保了翻譯速度和翻譯質量。”(西本)
在專利文檔中,當一個長句被分成一行(háng / xíng)一句後(hòu),句子之間往往會(huì)夾雜一些無用(yòng)的字符,比如(rú):頁碼等。
機器翻譯長句分割示例
“人工智能(néng)目前仍無法合并或分割句子。爲了從細節方面提高整體翻譯質量,必須先進行(háng / xíng)‘文章結構分析’。深入分析文章結構的語言處理工作正需要(yào / yāo)東芝來完成。”(目黑)
三宅女士回顧項目時說:“毫無疑問,文章結構分析是本項目的重點之一”。比如(rú),在翻譯系統構建過(guò)程中,出現了一個奇怪的翻譯結果,就(jiù)是“Sunrise”(日出)這個單詞,這個單詞與專利内容毫不相幹。對(duì)此,我們感到非常困惑,經過(guò)調查,原因出乎所(suǒ)有人意料。
“專利文件經常遇到下(xià)圖這種格式。由于(yú)前後(hòu)兩段緊連在一起,變成了‘日出’這個詞,翻譯引擎順勢将其(qí)翻譯成‘Sunrise’。爲消除這種錯譯,結構解析時需要(yào / yāo)進行(háng / xíng)數百個處理。而(ér)且這種錯誤隻能(néng)通過(guò)目視檢查的方式發(fā/fà)現。一次分析就(jiù)需要(yào / yāo)通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入。”(三宅)
機器翻譯錯誤示例
在科技方面的專利文獻中,還可(kě)能(néng)會(huì)出現化學式和DNA序列。字母和數字羅列是導緻誤譯的原因之一。事(shì)實上,NMT并不擅長準确翻譯這類字符串,經常會(huì)出現“漏譯”和“冗餘”(生(shēng)成無關字符串)的情況。對(duì)此,三宅女士等人采用(yòng)了“無需翻譯”的方式。具體機制是:從輸入的句子中識别出字符串,例如(rú):化學公式和DNA序列等,先使用(yòng)引擎翻譯字符串以外的部分,然後(hòu)将翻譯結果與字符串合并,輸出最終的翻譯結果。這樣一來,就(jiù)避免了NMT特有的錯譯問題。
“與RBMT相比,NMT和SMT的翻譯質量更高,計算量也更大,因此需要(yào / yāo)更多的處理時間。以往,翻譯專利等長篇文檔至少需要(yào / yāo)30分鍾。此次開發(fā/fà)的翻譯系統是面向浏覽網頁的用(yòng)戶,需要(yào / yāo)提供實時在線翻譯,不能(néng)讓用(yòng)戶在電腦前等待30分鍾。爲提高翻譯速度,東芝團隊經過(guò)反複試錯、調整,終于(yú)達到了滿意的翻譯速度。”(西本)
三、持續優化機器翻譯 開發(fā/fà)多語種翻譯系統
2019年(nián)5月,東芝推出日英翻譯功能(néng)。專利信息平台(J-PlatPat)正式啓用(yòng)文檔及日本專利公報的日英翻譯功能(néng)。國外專利審查員參考日本審查結果,日本人申請國外專利,翻譯專利參考文件時,都可(kě)以使用(yòng)此項翻譯功能(néng)。
“我們進行(háng / xíng)了多種測試,比如(rú)平時不大可(kě)能(néng)有的大翻譯量的測試,不留任何小瑕疵,最終迎來了正式發(fā/fà)布的時刻。剛剛發(fā/fà)布後(hòu),我們就(jiù)接到了用(yòng)戶打來的電話,用(yòng)戶反饋說:‘這麽高的翻譯質量令我十(shí)分驚訝’。這種反饋是極爲難得(dé / de / děi)的,充分證明了翻譯準确度已得(dé / de / děi)到顯著提升。目前,該項目仍将持續進行(háng / xíng)中,我們将會(huì)進一步提升翻譯質量和系統配置,以便處理更多語種,我非常有信心完成後(hòu)半程的開發(fā/fà)工作。”(目黑)
“難得(dé / de / děi)有機會(huì)了解到普通用(yòng)戶的反饋,我真的非常高興。尤其(qí)感謝目黑先生(shēng)以及專利廳的其(qí)他員工,向我們提出了很多寶貴意見。讓我深有感觸的是,專利廳、NICT、東芝數字解決方案株式會(huì)社能(néng)作爲一個團隊,攜手并肩,朝着(zhe/zhuó/zhāo/zháo)提高翻譯質量和速度的共同目标,不斷前行(háng / xíng)。”(三宅)
“目前,我們正在開發(fā/fà)中日和韓日翻譯功能(néng),我們的目标是在2020年(nián)4月正式發(fā/fà)布機器翻譯系統。在翻譯引擎技術方面,我們向NICT的隅田先生(shēng)反饋各種問題,并及時進行(háng / xíng)調整,同時,我們的應用(yòng)程序也在持續改善中。目前,機器翻譯的最終服務模式和理想形态還尚不明朗。我希望借助本項目獲取的知識經驗,開發(fā/fà)出能(néng)夠滿足政府機關、研究機構、企業翻譯需求的解決方案”(西本)
“東芝開發(fā/fà)的機器翻譯系統在對(duì)安全性有要(yào / yāo)求的操作環境下(xià)也能(néng)正常工作,未來有望向其(qí)它領域拓展,比如(rú):政府機關、以及制藥、金融、汽車等安全性要(yào / yāo)求高行(háng / xíng)業,而(ér)且,這些行(háng / xíng)業的對(duì)譯數據已經非常豐富。NICT表示,希望在高精度引擎技術轉讓方面,繼續與東芝開展合作。”(隅田)
專利廳發(fā/fà)布的“全球最快、最高質量”的審查支持系統是NICT和東芝的共同努力的結果,NICT的先進翻譯引擎技術與東芝的自(zì)然語言處理技術堪稱完美搭檔。不斷鞏固和發(fā/fà)展這種合作夥伴關系,持續開發(fā/fà)語言翻譯系統,這讓我們得(dé / de / děi)以窺見機器翻譯的未來。東芝一直緻力于(yú)創新研發(fā/fà)高科技産品,希望與不同行(háng / xíng)業的尖端科技型企業共同努力,碰撞火花,點亮未來無限可(kě)能(néng)。