9月21日,一篇指責(zé)科大訊飛“AI同傳造假”的文章引發(fā)了社會廣泛關(guān)注,文中知乎用戶、同傳譯員Bell Wang表示,在日前舉行的2018創(chuàng)新與新興產(chǎn)業(yè)發(fā)展國際會議上,科大訊飛在現(xiàn)場和直播中展示的“AI同傳”,用的其實(shí)是自己現(xiàn)場同傳翻譯的內(nèi)容。
當(dāng)晚,科大訊飛在電話會議回應(yīng)中稱:應(yīng)主辦方要求提供語音識別技術(shù),直接轉(zhuǎn)寫譯員翻譯結(jié)果在會場大屏呈現(xiàn),主辦方同時要求在直播中合成識別結(jié)果,展示最新語音合成技術(shù)。
早在2017年,“科大訊飛翻譯機(jī)讓同傳下崗”的文章就刷爆各大平臺,表示同聲傳譯職業(yè)將直接消亡、被科大訊飛機(jī)器翻譯技術(shù)完全替代。這次的事件再一次引發(fā)熱烈討論:機(jī)器翻譯技術(shù)與同聲傳譯之間到底還有多少差距?
事件回溯與科大訊飛回應(yīng)
9月20日,Bell Wang發(fā)表文章稱“要揭露一下所謂智能翻譯的真相”,他表示在知領(lǐng)直播平臺的“機(jī)器同傳”,就是把同傳譯員的聲音精確轉(zhuǎn)錄為文本,然后再語音合成為機(jī)器聲音向聽眾播放。
文章稱,“科大訊飛事前沒有告知有語音識別的字幕,沒有告知直播的同傳是機(jī)器朗讀同傳經(jīng)過識別出來的文稿,更沒有征得同意就冒名使用了譯員翻譯成果。”
他的文章發(fā)出后,同傳圈也“炸了鍋”。微博博主“同聲翻譯櫻桃羊”表示:“現(xiàn)在這種所謂的‘人機(jī)耦合’,實(shí)行之前和譯員溝通過么?有沒有調(diào)查過譯員是否接受這種方式?縱觀整件事,譯員的意見在哪一個環(huán)節(jié)得到了尊重?” 當(dāng)晚,針對Bell Wang的質(zhì)疑,科大訊飛回應(yīng)稱:“科大訊飛目前翻譯服務(wù)主要提供兩種方案:一種是全自動翻譯,現(xiàn)場機(jī)器翻譯并同步展示在屏幕上,沒有任何人工同傳參與;另一種是人機(jī)耦合翻譯模式,由機(jī)器提供語音轉(zhuǎn)寫和翻譯結(jié)果給同傳參考。”
機(jī)器同時提供轉(zhuǎn)寫和翻譯服務(wù)時,文字展示區(qū)Logo顯示為“訊飛聽見—離線翻譯系統(tǒng)”;機(jī)器僅提供轉(zhuǎn)寫服務(wù)時,文字展示區(qū)Logo顯示為“訊飛聽見”。
科大訊飛表示,“某位同傳譯員對于科大訊飛產(chǎn)生了誤解,是對會議服務(wù)方面的分工溝通了解不清,也沒有聽到科大訊飛的說明。”
針對科大訊飛的回應(yīng),《中國科學(xué)報》記者聯(lián)系了Bell Wang,但他表示不能接受采訪。對科大訊飛提到的“應(yīng)主辦方要求展示最新語音合成技術(shù)”,他回應(yīng)道:“只能無可奉告,我不能說啥”。
同時記者注意到,Bell Wang在知乎上的文章在9月21日晚上有修改痕跡,他在開頭聲明:對視頻進(jìn)行了修改。
機(jī)器翻譯能否替代同傳譯員?
來自科大訊飛微信公眾號的內(nèi)容顯示,目前機(jī)器翻譯的主流方式叫“統(tǒng)計(jì)翻譯”,其基本原理是:從語料庫大量的翻譯實(shí)例中自動學(xué)習(xí)翻譯知識,然后利用這些翻譯知識自動翻譯其他句子。
那么隨著機(jī)器翻譯技術(shù)的進(jìn)步,不少人會發(fā)出疑問:機(jī)器會搶同聲傳譯的飯碗嗎?
科大訊飛創(chuàng)始人、董事長劉慶峰表示:“我們希望用機(jī)器幫助頂尖同傳更好地發(fā)展他的能力,機(jī)器和人未來必須是協(xié)同的。”
一位不愿具名的專家告訴記者:“訊飛的技術(shù)在國內(nèi)語音行業(yè)積累較多,但目前的情況是,人工智能只是處在初級階段,機(jī)器翻譯的難點(diǎn)在于語音識別和語義識別。在語義識別上,現(xiàn)在全球做得都不是太好。”
“目前機(jī)器在字、詞的識別速度上是快于人的,但人在語意理解和提煉上又優(yōu)于機(jī)器。因此,各取所長、優(yōu)勢互補(bǔ)的人機(jī)耦合是一個重要發(fā)展方向。”一位訊飛聽見工作人員在接受其他媒體采訪時說。
9月21日,記者曾聯(lián)系科大訊飛執(zhí)行總裁、消費(fèi)者事業(yè)群總裁胡郁,他表示“要找市場部和公關(guān)部,本人不作回應(yīng)”。但當(dāng)天下午胡郁在微博發(fā)聲:“目前整個行業(yè)機(jī)器同傳處于風(fēng)口浪尖之上,不同廠商之間的競爭日加激烈,主要原因還是動了誰的奶酪吧。”
上述不具名的專家認(rèn)為,網(wǎng)絡(luò)媒體對人工智能存在過度宣傳和炒作。“受到利益驅(qū)使,一些企業(yè)利用媒體進(jìn)行宣傳,同時網(wǎng)絡(luò)媒體也不會對內(nèi)容和信息準(zhǔn)確性進(jìn)行核實(shí),就造成了目前的狀況。”
胡郁還在微博中表示:“我相信大家也都知道科大訊飛真正的機(jī)器同傳和將同傳人員的語音轉(zhuǎn)換成文字貼出來便于大家理解是兩個完全不同的事情。不管是前者還是后者,都經(jīng)過了廣大最終用戶和同傳從業(yè)人員的檢驗(yàn),我就不再多說了。”
專家表示AI同傳還不是一項(xiàng)成熟技術(shù)
自1989年美國成功做出第一個語音翻譯系統(tǒng)以來,眾多科研機(jī)構(gòu)和包括微軟、百度在內(nèi)的公司都在進(jìn)行AI翻譯的研究。得益于人工神經(jīng)網(wǎng)絡(luò)的深入研究,這些年,AI同傳技術(shù)發(fā)展很快。
“但是,這仍然不是一項(xiàng)成熟的技術(shù),AI同傳仍然有很多技術(shù)難題需要攻克。”中國科學(xué)院自動化研究所研究員宗成慶告訴《中國科學(xué)報》記者。
就目前AI同傳技術(shù)水平而言,在某些簡單的場景中,可以實(shí)現(xiàn)較準(zhǔn)確的語言同步翻譯,如問路。但是,在復(fù)雜、專業(yè)、嚴(yán)謹(jǐn)?shù)膱鼍爸校珹I無法實(shí)現(xiàn)精準(zhǔn)翻譯,做到“信”“達(dá)”“雅”。
出于語言本身的特點(diǎn),詞匯有多重含義,且經(jīng)常出現(xiàn)有歧義、似是而非的語句。其次,口語的規(guī)范性不高,有很多省略、顛倒句式。此外,說話人的口音、語速、多種語言混合,場景其他聲源的干擾,也會讓AI同傳“不知所措”。
“但最重要的一點(diǎn)是,機(jī)器無法精準(zhǔn)把握說話人的意圖。對語義的理解不夠,是目前AI同傳尚未解決的一大難題。因此,目前AI同傳無法高水平地替代人工翻譯。”宗成慶說。
宗成慶介紹,語音轉(zhuǎn)文字技術(shù)主要的難點(diǎn)是同音字、詞的處理,不同的字、詞有相同的發(fā)音,需要結(jié)合上下文進(jìn)行判斷,如“保鮮”和“保先”、“反攻”和“返工”。
由于語音識別技術(shù)不需要太多的語言理解,在聲源干擾不強(qiáng)烈的情況下,較標(biāo)準(zhǔn)的語音可以轉(zhuǎn)換成準(zhǔn)確率較高文本。“這比AI同傳成熟得多、容易得多。”宗成慶表示。
(記者趙廣立對本文亦有貢獻(xiàn))
摘自《中國科學(xué)報》