長(cháng)久以來(lái),人類(lèi)都含有一個(gè)共同的夙愿:發(fā)明一個(gè)機器,實(shí)現全世界之間毫無(wú)障礙的自由交流。而毫無(wú)疑問(wèn),自由交流,在一個(gè)宣稱(chēng)為自由連接的互聯(lián)網(wǎng)時(shí)代,更能夠彰顯它的價(jià)值。畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽(tīng)不懂彼此的語(yǔ)言,實(shí)在有些尷尬
長(cháng)久以來(lái),人類(lèi)都含有一個(gè)共同的夙愿:發(fā)明一個(gè)機器,實(shí)現全世界之間毫無(wú)障礙的自由交流。而毫無(wú)疑問(wèn),自由交流,在一個(gè)宣稱(chēng)為自由連接的互聯(lián)網(wǎng)時(shí)代,更能夠彰顯它的價(jià)值。畢竟,同是地球人,同住地球村,當你我覓得彼此,卻聽(tīng)不懂彼此的語(yǔ)言,實(shí)在有些尷尬。
微軟旗下的Skype進(jìn)行宣布,具備了實(shí)時(shí)語(yǔ)音翻譯的翻譯器Skype Translator中文預覽版已經(jīng)正式在中國的市場(chǎng)上推出了。其實(shí),不同于母語(yǔ)間的人直接對話(huà),讓機器實(shí)時(shí)翻譯,這些技術(shù)微軟早在去年的時(shí)候就已經(jīng)與公眾見(jiàn)面了,只是那個(gè)時(shí)候還不支持中文。你知道,哪怕是對于機器,有大約一萬(wàn)個(gè)常用漢字以及各種語(yǔ)音語(yǔ)調的中文也頗具挑戰性。但如今,包括微軟和谷歌在內的科技巨頭的發(fā)力,使得地球上使用人數最多的語(yǔ)言與使用最廣泛的語(yǔ)言能夠直接開(kāi)展對話(huà)了。
Skype的翻譯系統主要是分個(gè)三步驟:首先,把你的實(shí)時(shí)語(yǔ)音翻譯成文字;然后,再把文字翻譯成為另外一種語(yǔ)言的文字;最后,把文字轉換成語(yǔ)音。其中,識別實(shí)時(shí)語(yǔ)音并轉換成文字,一直是最棘手的部分。
如你所知,精準的實(shí)時(shí)語(yǔ)音翻譯,有賴(lài)于強大的機器學(xué)習,也就是軟件學(xué)習訓練數據的能力。這些訓練數據包括翻譯的網(wǎng)頁(yè),配有字幕的視頻,以及預先翻譯且轉錄成文字的一對一談話(huà)。Skype Translator通過(guò)記錄對話(huà)來(lái)分析文本并且訓練系統能夠更好地“學(xué)習”語(yǔ)言——當準備好的數據錄入系統后,機器學(xué)習軟件會(huì )在這些對話(huà)和環(huán)境涉及到的單詞中搭建一個(gè)統計模型,當你說(shuō)話(huà)時(shí),軟件會(huì )在統計模型中尋找相似內容,然后應用到預先“學(xué)到”的轉化程序中,得以讓語(yǔ)音轉換為文本,再從文本轉換成另一種語(yǔ)言。
值得一提的是,與程序設定一般的朗誦不同,人會(huì )一邊思考一邊說(shuō)話(huà),會(huì )犯錯,這種犯錯在口語(yǔ)表達中的體現就是打磕巴,停頓,重復,或者頻頻出現如“嗯”“啊”“呃”之類(lèi)的語(yǔ)氣助詞,針對于此,Skype Translator的機器學(xué)習模型也會(huì )處理這些停頓。在預覽版中,用戶(hù)可以看到部分語(yǔ)氣詞停頓被移除,而未被移除的部分則可能通過(guò)用戶(hù)反饋進(jìn)行再優(yōu)化。
在數據進(jìn)入系統之后,機器學(xué)習軟件會(huì )為對話(huà)中的單詞建立統計模型,當你說(shuō)到某一個(gè)東西時(shí),系統會(huì )在統計模型里尋找類(lèi)似的單詞,并響應之前做過(guò)的類(lèi)似的翻譯。實(shí)時(shí)語(yǔ)音翻譯對用戶(hù)對話(huà)的環(huán)境很敏感,稍有噪音干擾可能準確度就會(huì )降低很多。這一方面,深度神經(jīng)網(wǎng)絡(luò )有效的減少識別錯誤率,改善了系統的健壯性,讓實(shí)時(shí)翻譯能夠有更大的應用范圍。
不過(guò),作為一項不斷優(yōu)化的技術(shù),無(wú)論是微軟的Skype Translator還是“老對手”谷歌的Google Translate,至少在現階段,實(shí)時(shí)語(yǔ)音翻譯技術(shù)應該還是談不上完美的,系統對語(yǔ)音的識別準確率也有待完善。要知道,語(yǔ)言如同一只野獸,時(shí)刻都在變化,哪怕同一國家,因地域不同也有不同口音與俚語(yǔ)文化。這些問(wèn)題可以通過(guò)更大范圍的數據解決么?也許能,但還需要時(shí)間。
然而無(wú)論怎樣,就像一位評測者所言:“整個(gè)體驗就像是兩名電話(huà)銷(xiāo)售員在使用對講機,不過(guò)在使用過(guò)程中,這樣的抱怨將會(huì )被‘奇跡’帶來(lái)的震驚所取代。”
Skype的機器學(xué)習原型通過(guò)預覽階段的大量數據進(jìn)行訓練,并優(yōu)化語(yǔ)音識別(SR)和自動(dòng)化機器翻譯(MT)任務(wù),這些優(yōu)化包括去除語(yǔ)句中的不流利成分(比如“ahs”、“umms”和重復性的語(yǔ)言)、把文本分段成句子、增加標點(diǎn)符號、文本的大小寫(xiě)等等。
至于不同語(yǔ)言的文本翻譯,Skype利用的則是和Bing翻譯一樣的引擎技術(shù):語(yǔ)法和統計模型的結合使用,同時(shí)為特定語(yǔ)言進(jìn)行特殊的訓練。普通的文本翻譯往往要求使用規范正確的書(shū)面語(yǔ)言,而Skype翻譯系統不僅包括Bing翻譯的引擎技術(shù),還額外增加了一層口語(yǔ)化的語(yǔ)言業(yè)務(wù)。
此外,Skype還建立了一套自定義的串連整個(gè)流程的架構,以協(xié)調系統里多個(gè)部分間的運作。如何簡(jiǎn)單又高效的運作整個(gè)系統,也是一門(mén)不小的學(xué)問(wèn)。
Skype的實(shí)時(shí)語(yǔ)音翻譯系統還面臨著(zhù)很多挑戰,比如語(yǔ)言的變化的速度很快,每個(gè)人說(shuō)話(huà)的方式又很獨特,這些都會(huì )為實(shí)時(shí)翻譯造成不少的麻煩。但是,對于這一種可能會(huì )真正改變人們交流方式的科技產(chǎn)品,越來(lái)越多的人都為之激動(dòng)。相信全人類(lèi)的夙愿終會(huì )實(shí)現。