- 翻譯公司資訊
-
語(yǔ)料庫(kù)是語(yǔ)言知識(shí)的可靠來(lái)源
發(fā)布時(shí)間:2017-09-29 14:22 點(diǎn)擊:
首先祝賀第三屆漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)國(guó)際會(huì)議在北京召開(kāi)。漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)是獲取語(yǔ)言知識(shí),發(fā)現(xiàn)語(yǔ)言偏誤,提高語(yǔ)言習(xí)得水平的重要手段! ∥沂且粋(gè)自然語(yǔ)言處理的研究者,早在1957年,我就對(duì)于語(yǔ)言研究的發(fā)生了濃厚的興趣,夢(mèng)想著打破人類(lèi)的語(yǔ)言障礙,后來(lái)我知道了美國(guó)在1954年就研制成功俄英機(jī)器翻譯,受到極大的鼓舞,決心投身機(jī)器翻譯研究,實(shí)現(xiàn)自己的科學(xué)夢(mèng)想。1979年-1981年我在法國(guó)格勒諾布爾理科醫(yī)科大學(xué)留學(xué)時(shí),曾經(jīng)研制過(guò)一個(gè)把漢語(yǔ)自動(dòng)地翻譯為法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)5種外語(yǔ)的機(jī)器翻譯系統(tǒng),叫做FAJRA系統(tǒng),提出了多叉多標(biāo)記樹(shù)形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個(gè)基于短語(yǔ)的機(jī)器翻譯模型(phrase-based machine translation, PBMT)。Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專(zhuān)業(yè)服務(wù),專(zhuān)業(yè)的全球語(yǔ)言翻譯與信息解決方案供應(yīng)商,專(zhuān)業(yè)翻譯機(jī)構(gòu)品牌。無(wú)論在本地,國(guó)內(nèi)還是海外,我們的專(zhuān)業(yè)、星級(jí)體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國(guó)際交往城市設(shè)有翻譯基地,業(yè)務(wù)覆蓋全國(guó)城市。每天有近百萬(wàn)字節(jié)的信息和貿(mào)易通過(guò)世聯(lián)走向全球!積累了大量政商用戶數(shù)據(jù),翻譯人才庫(kù)數(shù)據(jù),多語(yǔ)種語(yǔ)料庫(kù)大數(shù)據(jù)。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國(guó)際組織、跨國(guó)公司和大中型企業(yè)等近萬(wàn)用戶的認(rèn)可。 專(zhuān)業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語(yǔ)翻譯,翻譯公司排行榜,翻譯公司收費(fèi)價(jià)格表,翻譯公司收費(fèi)標(biāo)準(zhǔn),翻譯公司北京,翻譯公司上海。
當(dāng)時(shí)我采用的方法,是基于語(yǔ)言規(guī)則的理性主義方法。我用了3年時(shí)間,編寫(xiě)了漢語(yǔ)分析規(guī)則5000條左右,法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)的轉(zhuǎn)換規(guī)則和生成規(guī)則各3000條左右,一共20000多條規(guī)則,此外,我還編制了若干部機(jī)器可讀的、代碼化的機(jī)器翻譯詞典,由于工作量大,我每天工作時(shí)間都超過(guò)10小時(shí),扎扎實(shí)實(shí)苦干了3年,于1981年11月在IBM 4341大型計(jì)算機(jī)上輸出了法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)等5種語(yǔ)言的機(jī)器翻譯譯文。這是世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成多種外語(yǔ)的機(jī)器翻譯系統(tǒng)! ∵@個(gè)系統(tǒng)研制成功之后,在有限規(guī)模的語(yǔ)言范圍內(nèi),翻譯的正確率還比較高,而當(dāng)擴(kuò)大語(yǔ)言范圍時(shí),對(duì)于任意的漢語(yǔ)句子,翻譯的正確率只能達(dá)到70%左右,這樣的機(jī)器翻譯系統(tǒng)顯然是難以實(shí)用的。我在1982年回國(guó)之后,又相繼研制了法漢、英漢、日漢和德漢機(jī)器翻譯系統(tǒng),翻譯正確率都沒(méi)有超過(guò)70%! ∥液馁M(fèi)了如此巨大的精力,卻得到了很不理想的結(jié)果,在嚴(yán)峻的考驗(yàn)面前,我在少年時(shí)代的機(jī)器翻譯夢(mèng)想遭到了挫敗。我沒(méi)有得到多少成功的經(jīng)驗(yàn),卻留下了大量失敗的教訓(xùn)。我為此感到困惑,有一種難言的失落感! ≌(dāng)我愁眉不展之際,1993年7月在日本神戶召開(kāi)的第四屆機(jī)器翻譯高層會(huì)議(MT Summit IV)上,英國(guó)著名學(xué)者哈欽斯(J. Hutchins)在他的特約報(bào)告中指出,自1989年以來(lái),機(jī)器翻譯的發(fā)展進(jìn)入了一個(gè)新紀(jì)元。這個(gè)新紀(jì)元的重要標(biāo)志是,在基于規(guī)則的技術(shù)中引入了語(yǔ)料庫(kù)方法。這種建立在大規(guī)模(large-scale)真實(shí)文本(authentic text)處理基礎(chǔ)上的機(jī)器翻譯,是機(jī)器翻譯研究史上的一場(chǎng)革命,它會(huì)把自然語(yǔ)言的計(jì)算機(jī)處理推向一個(gè)嶄新的階段! “颜Z(yǔ)料庫(kù)方法引入到機(jī)器翻譯中,改變了機(jī)器翻譯翻譯研究者獲取知識(shí)的手段,由于語(yǔ)料庫(kù)是大規(guī)模的真實(shí)文本,人們就可以得到更加完善的統(tǒng)計(jì)性的語(yǔ)言知識(shí),因此,也就大大地提高了機(jī)器翻譯的質(zhì)量,加快了機(jī)器翻譯系統(tǒng)的研制周期。 語(yǔ)言知識(shí)究竟在哪里?語(yǔ)言知識(shí)固然存在于語(yǔ)法書(shū)里,存在于各種類(lèi)型的詞典里,存在于汗牛充棟的語(yǔ)言學(xué)論文里,但是,更加全面的、更加客觀的語(yǔ)言知識(shí)應(yīng)當(dāng)存在于大規(guī)模的真實(shí)文本語(yǔ)料庫(kù)里,語(yǔ)料庫(kù)是語(yǔ)言知識(shí)最可靠的來(lái)源! ≌Z(yǔ)料庫(kù)改變了機(jī)器翻譯的命運(yùn),基于短語(yǔ)的機(jī)器翻譯發(fā)展成為統(tǒng)計(jì)機(jī)器翻譯( statistical machine translation,SMT),機(jī)器翻譯走向了商品化和實(shí)用化的新階段! ‰S著互聯(lián)網(wǎng)的迅速發(fā)展,我們進(jìn)入了大數(shù)據(jù)時(shí)代。數(shù)據(jù)挖掘成為計(jì)算機(jī)科學(xué)的一個(gè)重要研究領(lǐng)域,數(shù)據(jù)挖掘中采用的機(jī)器自動(dòng)學(xué)習(xí)的方法,對(duì)于統(tǒng)計(jì)機(jī)器翻譯具有重要的價(jià)值! C(jī)器自動(dòng)學(xué)習(xí)的方法主要有三種類(lèi)型:有指導(dǎo)的學(xué)習(xí)、無(wú)指導(dǎo)的學(xué)習(xí)、半指導(dǎo)的學(xué)習(xí)! ∮兄笇(dǎo)的學(xué)習(xí)實(shí)際上是對(duì)于數(shù)據(jù)進(jìn)行分類(lèi),首先使用事先定義好的類(lèi)別或范疇標(biāo)記對(duì)于數(shù)據(jù)的實(shí)例進(jìn)行標(biāo)注,作為訓(xùn)練數(shù)據(jù),機(jī)器根據(jù)這些標(biāo)注好的訓(xùn)練數(shù)據(jù)進(jìn)行自動(dòng)學(xué)習(xí),再根據(jù)學(xué)習(xí)得到的知識(shí)對(duì)于新的數(shù)據(jù)進(jìn)行分類(lèi)。由于用來(lái)學(xué)習(xí)的訓(xùn)練數(shù)據(jù)是用事先定義好的標(biāo)記進(jìn)行過(guò)標(biāo)注的,機(jī)器學(xué)習(xí)的過(guò)程是在這些訓(xùn)練數(shù)據(jù)的指導(dǎo)下進(jìn)行的,所以叫做有指導(dǎo)的學(xué)習(xí)! ≡跓o(wú)指導(dǎo)的學(xué)習(xí)中,用來(lái)學(xué)習(xí)的數(shù)據(jù)沒(méi)有使用事先定義好的類(lèi)別或范疇標(biāo)記進(jìn)行過(guò)標(biāo)注,要使用機(jī)器學(xué)習(xí)的算法來(lái)自動(dòng)地發(fā)現(xiàn)隱藏在數(shù)據(jù)中的特征、結(jié)構(gòu)或規(guī)律。這種無(wú)指導(dǎo)學(xué)習(xí)的一個(gè)關(guān)鍵技術(shù)是聚類(lèi),聚類(lèi)技術(shù)根據(jù)數(shù)據(jù)實(shí)例的相同點(diǎn)或相異點(diǎn),自動(dòng)地把它們聚類(lèi)為不同的組合! ∮兄笇(dǎo)的學(xué)習(xí)要求事先人工標(biāo)注大量的數(shù)據(jù)實(shí)例,需要付出巨大的人工的勞動(dòng)量,費(fèi)力而又費(fèi)時(shí),為了減少人工標(biāo)注的勞動(dòng)量,可以同時(shí)從標(biāo)注過(guò)的數(shù)據(jù)實(shí)例和沒(méi)有標(biāo)注過(guò)的數(shù)據(jù)實(shí)例中進(jìn)行學(xué)習(xí),標(biāo)注過(guò)的數(shù)據(jù)實(shí)例的集合可以比較小,而沒(méi)有標(biāo)注過(guò)的數(shù)據(jù)實(shí)例的集合可以很大,這樣的模型叫做半指導(dǎo)的學(xué)習(xí)! C(jī)器自動(dòng)學(xué)習(xí)的這些方法已經(jīng)成熟,而且廣泛地應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的研究中,這就從根本上改變了傳統(tǒng)的獲取語(yǔ)言知識(shí)的手段,從大規(guī)模的雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)中,通過(guò)機(jī)器自動(dòng)學(xué)習(xí)的方法,去獲取語(yǔ)言的翻譯信息,對(duì)于機(jī)器翻譯的發(fā)展具有革命性的意義。 目前,基于多層神經(jīng)網(wǎng)絡(luò)的、以大數(shù)據(jù)作為輸入的深度學(xué)習(xí)(deep learning)方法引入到機(jī)器翻譯中。這是一種新型的機(jī)器自動(dòng)學(xué)習(xí)。深度學(xué)習(xí)的訓(xùn)練方式是無(wú)監(jiān)督的特征學(xué)習(xí),使用多層神經(jīng)網(wǎng)絡(luò)的方法。這種多層神經(jīng)網(wǎng)絡(luò)是非線性的,可以重復(fù)利用中間層的計(jì)算單元,減少參數(shù),計(jì)算機(jī)從海量的大數(shù)據(jù)中可以自動(dòng)地產(chǎn)生模型的特征和算法! ≡~向量是多層神經(jīng)網(wǎng)絡(luò)的一種重要方法,詞向量把單詞映射為一個(gè)固定維度的向量,不同的詞向量構(gòu)成詞向量語(yǔ)義空間,在這個(gè)詞向量語(yǔ)義空間中,語(yǔ)義相似的單詞距離較近! ∩疃葘W(xué)習(xí)研究者米克羅夫(Tomas Mikolov)發(fā)現(xiàn),如果用“意大利”這個(gè)單詞的屬性向量來(lái)減去“羅馬”這個(gè)單詞的屬性向量,再加上“巴黎”這個(gè)單詞的屬性向量,我們就能得到“法國(guó)”這個(gè)單詞或者相近的屬性向量。類(lèi)似地,如果用“國(guó)王”的屬性向量減去“男人”的屬性向量,再加上“女人”的屬性向量,就能得到“王后”的屬性向量。這非常令人振奮的結(jié)果,因?yàn)槊卓肆_夫事先并沒(méi)有刻意地做這樣的安排。 2007年以來(lái),采用深度學(xué)習(xí)的方法,以大規(guī)模的雙語(yǔ)對(duì)齊的口語(yǔ)語(yǔ)料庫(kù)作為語(yǔ)言知識(shí)的來(lái)源,從雙語(yǔ)對(duì)齊的口語(yǔ)語(yǔ)料庫(kù)中獲取翻譯知識(shí),統(tǒng)計(jì)機(jī)器翻譯又進(jìn)一步發(fā)展成了神經(jīng)機(jī)器翻譯(neural machine translation, NMT),口語(yǔ)神經(jīng)機(jī)器翻譯正確率已經(jīng)超過(guò)了 90%,針對(duì)日?谡Z(yǔ)的神經(jīng)機(jī)器翻譯基本上已經(jīng)可以付諸實(shí)用了。
但是,在這種神經(jīng)機(jī)器翻譯中,語(yǔ)言之間的翻譯細(xì)節(jié)還是一個(gè)黑箱(black box),盡管翻譯的結(jié)果不錯(cuò),我們對(duì)于其中的語(yǔ)言處理機(jī)制仍然是不清楚的,在語(yǔ)言學(xué)理論上,我們還難以做出科學(xué)的解釋! ∽罱,深度學(xué)習(xí)向神經(jīng)網(wǎng)絡(luò)中融入了記憶機(jī)制,把基于理性主義的知識(shí)驅(qū)動(dòng)與基于經(jīng)驗(yàn)主義的數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來(lái),架起了符號(hào)主義與聯(lián)接主義之間的橋梁。這應(yīng)當(dāng)是今后神經(jīng)機(jī)器翻譯發(fā)展的新方向! 】梢钥闯觯捎谠跈C(jī)器翻譯中引入了語(yǔ)料庫(kù)技術(shù),已經(jīng)獲得了巨大的進(jìn)步,這是令人可喜的。不論是書(shū)面語(yǔ)文本語(yǔ)料庫(kù)還是口語(yǔ)語(yǔ)料庫(kù),都是機(jī)器翻譯得以發(fā)展進(jìn)步的關(guān)鍵性因素。語(yǔ)料庫(kù)對(duì)于機(jī)器翻譯的發(fā)展具有舉足輕重的作用! ∧壳,漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)已經(jīng)取得了很大的成績(jī)。北京語(yǔ)言大學(xué)、南京師范大學(xué)、魯東大學(xué)、暨南大學(xué)、中山大學(xué)、上海交通大學(xué)、廈門(mén)大學(xué)、臺(tái)灣師范大學(xué)先后建立了不同規(guī)模的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)。香港中文大學(xué)、新疆醫(yī)科大學(xué)還建立了漢語(yǔ)口語(yǔ)習(xí)得語(yǔ)料庫(kù)! ≡谶@些中介語(yǔ)語(yǔ)料庫(kù)的基礎(chǔ)上,研究者們進(jìn)行了卓有成效的研究,成果斐然。第三屆漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)國(guó)際會(huì)議為交流這些成果提供了一個(gè)很好的交流機(jī)會(huì),我衷心祝賀這次國(guó)際會(huì)議成功。