長篇外文看不懂?幫你全篇一鍵翻譯 。
出國旅游語言不通?翻譯機隨身帶,溝通無障礙!
無論是在網頁、APP還是其它帶有翻譯功能的軟硬件 , 都用到了一項重要的人工智能技術——機器翻譯 。
今天就來為大家介紹一下機器翻譯的基本知識點 。干貨滿滿,不要錯過哦!
機器翻譯的一般流程
機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預處理、核心翻譯、后處理 。
預處理是對語言文字進行規整,把過長的句子通過標點符號分成幾個短句子,過濾一些語氣詞和與意思無關的文字 , 將一些數字和表達不規范的地方,歸整成符合規范的句子 。
核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方 。
后處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接 , 特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣 。
機器翻譯的技術原理
在講機器翻譯的技術原理之前,我們先來看一張機器翻譯技術發展歷史圖:
20世紀80年代基于規則的機器翻譯開始走向應用,這是第一代機器翻譯技術 。隨著機器翻譯的應用領域越來越復雜,基于規則的機器翻譯的局限性開始顯現,應用場景越多,需要的規則也越來越多,規則之間的沖突也逐漸出現 。
于是很多科研學家開始思考,是否能讓機器自動從數據庫里學習相應的規則,1993年IBM提出基于詞的統計翻譯模型標志著第二代機器翻譯技術的興起 。
2014年谷歌和蒙特利爾大學提出的第三代機器翻譯技術,也就是基于端到端的神經機器翻譯,標志著第三代機器翻譯技術的到來 。
看完了機器翻譯技術的迭代發展,我們來了解下三代機器翻譯的核心技術:規則機器翻譯、統計機器翻譯、神經機器翻譯 。
規則機器翻譯
基于規則的機器翻譯大概有三種技術路線,第一種是直接翻譯的方法,對源語言做完分詞之后 , 將源語言的每個詞翻譯成目標語言的相關詞語,然后拼接起來得出翻譯結果 。
由于源語言和目標語言并不在同一體系下,句法順序有很大程度上的出入,直接拼接起來的翻譯結果 , 效果往往并不理想 。
于是科研人員提出了第二個規則機器翻譯的方法,引用語言學的相關知識 , 對源語言的句子進行句法的分析,由于應用了相關句法語言學的知識,因此構建出來的目標譯文是比較準確的 。
但這里依然存在著另外一個問題 , 只有當語言的規則性比較強,機器能夠做法分析的時候,這套方法才比較有效 。
因此在此基礎之上,還有科研人員提出,能否借助于人的大腦翻譯來實現基于規則的機器翻譯?
這里面涉及到中間語言,首先將源語言用中間語言進行描述,然后借助于中間語言翻譯成我們的目標語言 。
但由于語言的復雜性,其實很難借助于一個中間語言來實現源語言和目標語言的精確描述 。
講完了基于規則的機器翻譯的三種技術路線,我們用一張圖來總結下它的優缺點:

文章插圖

文章插圖
統計機器翻譯
機器翻譯的第二代技術路線,是基于統計的機器翻譯,其核心在于設計概率模型對翻譯過程建模 。
比如我們用x來表示原句子,用y來表示目標語言的句子 , 任務就是找到一個翻譯模型
θ。
最早應用于統計翻譯的模型是信源信道模型,在這個模型下假設我們看到的源語言文本 x是由一段目標語言文本 y 經過某種奇怪的編碼得到的,那么翻譯的目標就是要將 y 還原成 x,這也就是一個解碼的過程 。
所以我們的翻譯目標函數可以設計成最大化Pr( │ ) , 通過貝葉斯公式,我們可以把Pr( │ )分成兩項,Pr( ) 的語言模型,Pr?( | )的翻譯模型
如果將這個目標函數兩邊同取log強人工智能 英文 , 我們就可以得到對數線性模型 , 這也是我們在工程中實際采用的模型 。
對數線性模型不僅包括了翻譯模型、語言模型 , 還包括了調序模型 , 扭曲模型和詞數懲罰模型,通過這些模型共同約束來實現源語言到目標語言的翻譯 。
講完了統計機器翻譯的相關知識,我們來看下基于短語的統計翻譯模型的三個基本步驟:
1、源短語切分:把源語言句子切分成若干短語
2、源短語翻譯:翻譯每一個源短語
3、目標短語調序:按某順序把目標短語組合成句子
最后,我們依舊用一張圖來總結下基于統計機器翻譯的優缺點:
神經機器翻譯
講完了基于規則的機器翻譯和基于統計的機器翻譯,接下來我們來看下基于端到端的神經機器翻譯 。
神經機器翻譯基本的建模框架是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法 。
其核心部分有兩點,一是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼) 。
對于機器翻譯而言不僅包括了編碼和解碼兩個部分,還引入了額外的機制——注意力機制,來幫助我們進行調序 。
下面我們用一張示意圖來看一下,基于RNN的神經機器翻譯的流程:
首先我們通過分詞得到輸入源語言詞序列 , 接下來每個詞都用一個詞向量進行表示 , 得到相應的詞向量序列,然后用前向的RNN神經網絡得到它的正向編碼表示 。
再用一個反向的RNN強人工智能 英文,得到它的反向編碼表示,最后將正向和反向的編碼表示進行拼接,然后用注意力機制來預測哪個時刻需要翻譯哪個詞,通過不斷地預測和翻譯,就可以得到目標語言的譯文 。
【人工智能科普|機器翻譯究竟是什么?】本文到此結束,希望對大家有所幫助 。
- AI人工智能會為人類帶來什么,發展到極致會怎樣?
- 什么是人工智能?你聽過人工智能嗎?我們該如何看待人工智能?
- 當人工智能完全取代人類的體力勞動和部分的人的腦力勞動
- 人工智能的基本概念
- 人工智能將如何顛覆未來的生活?
- 《AI人工智能統治人類》
- 在未來,你認為人工智能和人類該如何和諧相處?
- 看完《機器人女友》,人工智能真的能取代人類的愛情嗎?
- 科技大進步,淺談意識與人工智能的關系
- 自ch-a-t-g-pt橫空出世,人工智能開啟“iP-h-o-n
