一、什么是自然語(yǔ)言處理
簡(jiǎn)單地說(shuō),自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)就是用計(jì)算機(jī)來(lái)處理、理解以及運(yùn)用人類(lèi)語(yǔ)言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,又常被稱(chēng)為計(jì)算語(yǔ)言學(xué)。由于自然語(yǔ)言是人類(lèi)區(qū)別于其他動(dòng)物的根本標(biāo)志。沒(méi)有語(yǔ)言,人類(lèi)的思維也就無(wú)從談起,所以自然語(yǔ)言處理體現(xiàn)了人工智能的最高任務(wù)與境界,也就是說(shuō),只有當(dāng)計(jì)算機(jī)具備了處理自然語(yǔ)言的能力時(shí),機(jī)器才算實(shí)現(xiàn)了真正的智能。
人工智能自然語(yǔ)言處理從研究?jī)?nèi)容來(lái)看,自然語(yǔ)言處理包括語(yǔ)法分析、語(yǔ)義分析、篇章理解等。從應(yīng)用角度來(lái)看,自然語(yǔ)言處理具有廣泛的應(yīng)用前景。特別是在信息時(shí)代,自然語(yǔ)言處理的應(yīng)用包羅萬(wàn)象,例如:機(jī)器翻譯、手寫(xiě)體和印刷體字符識(shí)別、語(yǔ)音識(shí)別及文語(yǔ)轉(zhuǎn)換、信息檢索、信息抽取與過(guò)濾、文本分類(lèi)與聚類(lèi)、輿情分析和觀(guān)點(diǎn)挖掘等,它涉及與語(yǔ)言處理相關(guān)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)獲取、知識(shí)工程、人工智能研究和與語(yǔ)言計(jì)算相關(guān)的語(yǔ)言學(xué)研究等。
值得一提的是,自然語(yǔ)言處理的興起與機(jī)器翻譯這一具體任務(wù)有著密切聯(lián)系。機(jī)器翻譯指的是利用計(jì)算機(jī)自動(dòng)地將一種自然語(yǔ)言翻譯為另外一種自然語(yǔ)言。例如自動(dòng)將英文“I like Beijing Tiananmen Square”翻譯為“我愛(ài)北京天安門(mén)”,或者反過(guò)來(lái)將“我愛(ài)北京天安門(mén)”翻譯為“I like Beijing Tiananmen Square”。由于人工進(jìn)行翻譯需要訓(xùn)練有素的雙語(yǔ)專(zhuān)家,翻譯工作非常耗時(shí)耗力。更不用說(shuō)需要翻譯一些專(zhuān)業(yè)領(lǐng)域文獻(xiàn)時(shí),還需要翻譯者了解該領(lǐng)域的基本知識(shí)。世界上有超過(guò)幾千種語(yǔ)言,而僅聯(lián)合國(guó)的工作語(yǔ)言就有六種之多。如果能夠通過(guò)機(jī)器翻譯準(zhǔn)確地進(jìn)行語(yǔ)言間的翻譯,將大大提高人類(lèi)溝通和了解的效率。
《圣經(jīng)》里有一個(gè)故事說(shuō)巴比倫人想建造一座塔直通天堂。建塔的人都說(shuō)著同一種語(yǔ)言,心意相通、齊心協(xié)力。上帝看到人類(lèi)竟然敢做這種事情,就讓他們的語(yǔ)言變得不一樣。因?yàn)槿藗兟?tīng)不懂對(duì)方在講什么,于是大家整天吵吵鬧鬧,無(wú)法繼續(xù)建塔。后來(lái)人們把這座塔叫作巴別塔,而“巴別”的意思就是“分歧”。雖然巴別塔停建了,但一個(gè)夢(mèng)想?yún)s始終縈繞在人們心中:人類(lèi)什么時(shí)候才能擁有相通的語(yǔ)言,重建巴別塔呢?機(jī)器翻譯被視為“重建巴別塔”的偉大創(chuàng)舉。假如能夠?qū)崿F(xiàn)不同語(yǔ)言之間的機(jī)器翻譯,我們就可以理解世界上任何人說(shuō)的話(huà),與他們進(jìn)行交流和溝通,再也不必為相互不能理解而困擾。
自然語(yǔ)言處理有多么困難事實(shí)上,“人工智能”被作為一個(gè)研究問(wèn)題正式提出來(lái)的時(shí)候,創(chuàng)始人把計(jì)算機(jī)國(guó)際象棋和機(jī)器翻譯作為兩個(gè)標(biāo)志性的任務(wù),認(rèn)為只要國(guó)際象棋系統(tǒng)能夠打敗人類(lèi)世界冠軍,機(jī)器翻譯系統(tǒng)達(dá)到人類(lèi)翻譯水平,就可以宣告人工智能的勝利。四十年后的1997年,IBM公司的深藍(lán)超級(jí)計(jì)算機(jī)已經(jīng)能夠打敗國(guó)際象棋世界冠軍卡斯帕羅夫。而機(jī)器翻譯到現(xiàn)在仍無(wú)法與人類(lèi)翻譯水平相比,從此可以看出自然語(yǔ)言處理有多么困難!
自然語(yǔ)言處理興起于美國(guó)。第二次世界大戰(zhàn)之后,二十世紀(jì)五十年代,當(dāng)電子計(jì)算機(jī)還在襁褓之中時(shí),利用計(jì)算機(jī)處理人類(lèi)語(yǔ)言的想法就已經(jīng)出現(xiàn)。當(dāng)時(shí),美國(guó)希望能夠利用計(jì)算機(jī)將大量俄語(yǔ)材料自動(dòng)翻譯成英語(yǔ),以窺探蘇聯(lián)科技的最新發(fā)展。研究者從破譯軍事密碼中得到啟示,認(rèn)為不同的語(yǔ)言只不過(guò)是對(duì)“同一語(yǔ)義”的不同編碼而已,從而想當(dāng)然地認(rèn)為可以采用譯碼技術(shù)像破譯密碼一樣“破譯”這些語(yǔ)言。
1954年1月7日,美國(guó)喬治敦大學(xué)和IBM公司合作實(shí)驗(yàn)成功地將超過(guò)60句俄語(yǔ)自動(dòng)翻譯成英語(yǔ)。雖然當(dāng)時(shí)的這個(gè)機(jī)器翻譯系統(tǒng)非常簡(jiǎn)單,僅僅包含6個(gè)語(yǔ)法規(guī)則和250個(gè)詞,但由于媒體的廣泛報(bào)道,紛紛認(rèn)為這是一個(gè)巨大的進(jìn)步,導(dǎo)致美國(guó)政府備受鼓舞,加大了對(duì)自然語(yǔ)言處理研究的投資。實(shí)驗(yàn)完成者也當(dāng)即自信地撰文稱(chēng),在三到五年之內(nèi)就能夠完全解決從一種語(yǔ)言到另一種語(yǔ)言的自動(dòng)翻譯問(wèn)題。他們認(rèn)為只要制定好各種翻譯規(guī)則,通過(guò)大量規(guī)則的堆砌就能夠完美地實(shí)現(xiàn)語(yǔ)言間的自動(dòng)翻譯。
然而,事實(shí)是理解人類(lèi)語(yǔ)言遠(yuǎn)比破譯密碼要復(fù)雜得多,因此研究進(jìn)展非常緩慢。1966年的一份研究報(bào)告總結(jié)發(fā)現(xiàn),經(jīng)過(guò)十年之久的研究,結(jié)果遠(yuǎn)遠(yuǎn)未能達(dá)到預(yù)期,因此支持資金急劇下降,使自然語(yǔ)言處理(特別是機(jī)器翻譯)的研究陷入長(zhǎng)達(dá)二十年的低潮。直到二十世紀(jì)八十年代,隨著電子計(jì)算機(jī)的計(jì)算能力的飛速提高和制造成本的大幅下降,研究者又開(kāi)始重新關(guān)注自然語(yǔ)言處理這個(gè)極富挑戰(zhàn)的研究領(lǐng)域。三十年滄海桑田,此時(shí)研究者已經(jīng)認(rèn)識(shí)到簡(jiǎn)單的語(yǔ)言規(guī)則的堆砌無(wú)法實(shí)現(xiàn)對(duì)人類(lèi)語(yǔ)言的真正理解。研究發(fā)現(xiàn),通過(guò)對(duì)大量的文本數(shù)據(jù)的自動(dòng)學(xué)習(xí)和統(tǒng)計(jì),能夠更好地解決自然語(yǔ)言處理問(wèn)題,如語(yǔ)言的自動(dòng)翻譯。這一思想被稱(chēng)為自然語(yǔ)言處理的統(tǒng)計(jì)學(xué)習(xí)模型,至今方興未艾。
那么,自然語(yǔ)言處理到底存在哪些主要困難或挑戰(zhàn),吸引那么多研究者幾十年如一日孜孜不倦地探索解決之道呢?
二、自然語(yǔ)言處理的主要困難
自然語(yǔ)言處理的困難可以羅列出來(lái)很多,不過(guò)關(guān)鍵在于消除歧義問(wèn)題,如詞法分析、句法分析、語(yǔ)義分析等過(guò)程中存在的歧義問(wèn)題,簡(jiǎn)稱(chēng)為消歧。而正確的消歧需要大量的知識(shí),包括語(yǔ)言學(xué)知識(shí)(如詞法、句法、語(yǔ)義、上下文等)和世界知識(shí)(與語(yǔ)言無(wú)關(guān))。這帶來(lái)自然語(yǔ)言處理的兩個(gè)主要困難。
首先,語(yǔ)言中充滿(mǎn)了大量的歧義,這主要體現(xiàn)在詞法、句法及語(yǔ)義三個(gè)層次上。歧義的產(chǎn)生是由于自然語(yǔ)言所描述的對(duì)象――人類(lèi)活動(dòng)非常復(fù)雜,而語(yǔ)言的詞匯和句法規(guī)則又是有限的,這就造成同一種語(yǔ)言形式可能具有多種含義。
例如單詞定界問(wèn)題是屬于詞法層面的消歧任務(wù)。在口語(yǔ)中,詞與詞之間通常是連貫說(shuō)出來(lái)的。在書(shū)面語(yǔ)中,中文等語(yǔ)言也沒(méi)有詞與詞之間的邊界。由于單詞是承載語(yǔ)義的最小單元,要解決自然語(yǔ)言處理,單詞的邊界界定問(wèn)題首當(dāng)其沖。特別是中文文本通常由連續(xù)的字序列組成,詞與詞之間缺少天然的分隔符,因此中文信息處理比英文等西方語(yǔ)言多一步工序,即確定詞的邊界,我們稱(chēng)為“中文自動(dòng)分詞”任務(wù)。通俗的說(shuō)就是要由計(jì)算機(jī)在詞與詞之間自動(dòng)加上分隔符,從而將中文文本切分為獨(dú)立的單詞。例如一個(gè)句子“今天天氣晴朗”的帶有分隔符的切分文本是“今天|天氣|晴朗”。中文自動(dòng)分詞處于中文自然語(yǔ)言處理的底層,是公認(rèn)的中文信息處理的第一道工序,扮演著重要的角色,主要存在新詞發(fā)現(xiàn)和歧義切分等問(wèn)題。我們注意到:正確的單詞切分取決于對(duì)文本語(yǔ)義的正確理解,而單詞切分又是理解語(yǔ)言的最初的一道工序。這樣的一個(gè)“雞生蛋、蛋生雞”的問(wèn)題自然成了(中文)自然語(yǔ)言處理的第一條攔路虎。
其他級(jí)別的語(yǔ)言單位也存在著各種歧義問(wèn)題。例如在短語(yǔ)級(jí)別上,“進(jìn)口彩電”可以理解為動(dòng)賓關(guān)系(從國(guó)外進(jìn)口了一批彩電),也可以理解為偏正關(guān)系(從國(guó)外進(jìn)口的彩電)。又如在句子級(jí)別上,“做手術(shù)的是她的父親”可以理解為她父親生病了需要做手術(shù),也可以理解為她父親是醫(yī)生,幫別人做手術(shù)??傊?,同樣一個(gè)單詞、短語(yǔ)或者句子有多種可能的理解,表示多種可能的語(yǔ)義。如果不能解決好各級(jí)語(yǔ)言單位的歧義問(wèn)題,我們就無(wú)法正確理解語(yǔ)言要表達(dá)的意思。
另外一個(gè)方面,消除歧義所需要的知識(shí)在獲取、表達(dá)以及運(yùn)用上存在困難。由于語(yǔ)言處理的復(fù)雜性,合適的語(yǔ)言處理方法和模型難以設(shè)計(jì)。
例如上下文知識(shí)的獲取問(wèn)題。在試圖理解一句話(huà)的時(shí)候,即使不存在歧義問(wèn)題,我們也往往需要考慮上下文的影響。所謂的“上下文”指的是當(dāng)前所說(shuō)這句話(huà)所處的語(yǔ)言環(huán)境,例如說(shuō)話(huà)人所處的環(huán)境,或者是這句話(huà)的前幾句話(huà)或者后幾句話(huà),等等。假如當(dāng)前這句話(huà)中存在指代詞的時(shí)候,我們需要通過(guò)這句話(huà)前面的句子來(lái)推斷這個(gè)指代詞是指的什么。我們以“小明欺負(fù)小亮,因此我批評(píng)了他”為例。在其中的第二句話(huà)中的“他”是指代“小明”還是“小亮”呢?要正確理解這句話(huà),我們就要理解上句話(huà)“小明欺負(fù)小亮”意味著“小明”做得不對(duì),因此第二句中的“他”應(yīng)當(dāng)指代的是“小明”。由于上下文對(duì)于當(dāng)前句子的暗示形式是多種多樣的,因此如何考慮上下文影響問(wèn)題是自然語(yǔ)言處理中的主要困難之一。
再如背景知識(shí)問(wèn)題。 正確理解人類(lèi)語(yǔ)言還要有足夠的背景知識(shí)。舉一個(gè)簡(jiǎn)單的例子,在機(jī)器翻譯研究的初期,人們經(jīng)常舉一個(gè)例子來(lái)說(shuō)明機(jī)器翻譯任務(wù)的艱巨性。在英語(yǔ)中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”。但是當(dāng)時(shí)的某個(gè)機(jī)器翻譯系統(tǒng)將這句英文翻譯到俄語(yǔ),然后再翻譯回英語(yǔ)的時(shí)候,卻變成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是濃的,但肉卻腐爛了”。從字面意義上看,“spirit”(烈性酒)與“Voltka”(伏特加)對(duì)譯似無(wú)問(wèn)題,而“flesh”和“meat”也都有肉的意思。那么這兩句話(huà)在意義上為什么會(huì)南轅北轍呢?關(guān)鍵的問(wèn)題就在于在翻譯的過(guò)程中,機(jī)器翻譯系統(tǒng)對(duì)于英語(yǔ)成語(yǔ)并無(wú)了解,僅僅是從字面上進(jìn)行翻譯,結(jié)果自然失之毫厘,差之千里。
從上面的兩個(gè)方面的主要困難,我們看到自然語(yǔ)言處理這個(gè)難題的根源就是人類(lèi)語(yǔ)言的復(fù)雜性和語(yǔ)言描述的外部世界的復(fù)雜性。人類(lèi)語(yǔ)言承擔(dān)著人類(lèi)表達(dá)情感、交流思想、傳播知識(shí)等重要功能,因此需要具備強(qiáng)大的靈活性和表達(dá)能力,而理解語(yǔ)言所需要的知識(shí)又是無(wú)止境的。那么目前人們是如何嘗試進(jìn)行自然語(yǔ)言處理的呢?
三、自然語(yǔ)言處理的發(fā)展趨勢(shì)
目前,人們主要通過(guò)兩種思路來(lái)進(jìn)行自然語(yǔ)言處理,一種是基于規(guī)則的理性主義,另外一種是基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義。理性主義方法認(rèn)為,人類(lèi)語(yǔ)言主要是由語(yǔ)言規(guī)則來(lái)產(chǎn)生和描述的,因此只要能夠用適當(dāng)?shù)男问綄⑷祟?lèi)語(yǔ)言規(guī)則表示出來(lái),就能夠理解人類(lèi)語(yǔ)言,并實(shí)現(xiàn)語(yǔ)言之間的翻譯等各種自然語(yǔ)言處理任務(wù)。而經(jīng)驗(yàn)主義方法則認(rèn)為,從語(yǔ)言數(shù)據(jù)中獲取語(yǔ)言統(tǒng)計(jì)知識(shí),有效建立語(yǔ)言的統(tǒng)計(jì)模型。因此只要能夠有足夠多的用于統(tǒng)計(jì)的語(yǔ)言數(shù)據(jù),就能夠理解人類(lèi)語(yǔ)言。然而,當(dāng)面對(duì)現(xiàn)實(shí)世界充滿(mǎn)模糊與不確定性時(shí),這兩種方法都面臨著各自無(wú)法解決的問(wèn)題。例如,人類(lèi)語(yǔ)言雖然有一定的規(guī)則,但是在真實(shí)使用中往往伴隨大量的噪音和不規(guī)范性。理性主義方法的一大弱點(diǎn)就是魯棒性差,只要與規(guī)則稍有偏離便無(wú)法處理。而對(duì)于經(jīng)驗(yàn)主義方法而言,又不能無(wú)限地獲取語(yǔ)言數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí),因此也不能夠完美地理解人類(lèi)語(yǔ)言。二十世紀(jì)八十年代以來(lái)的趨勢(shì)就是,基于語(yǔ)言規(guī)則的理性主義方法不斷受到質(zhì)疑,大規(guī)模語(yǔ)言數(shù)據(jù)處理成為目前和未來(lái)一段時(shí)期內(nèi)自然語(yǔ)言處理的主要研究目標(biāo)。統(tǒng)計(jì)學(xué)習(xí)方法越來(lái)越受到重視,自然語(yǔ)言處理中越來(lái)越多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來(lái)獲取語(yǔ)言知識(shí)。
邁進(jìn)二十一世紀(jì),我們已經(jīng)進(jìn)入了以互聯(lián)網(wǎng)為主要標(biāo)志的海量信息時(shí)代,這些海量信息大部分是以自然語(yǔ)言表示的。一方面,海量信息也為計(jì)算機(jī)學(xué)習(xí)人類(lèi)語(yǔ)言提供了更多的“素材”,另一方面,這也為自然語(yǔ)言處理提供了更加寬廣的應(yīng)用舞臺(tái)。例如,作為自然語(yǔ)言處理的重要應(yīng)用,搜索引擎逐漸成為人們獲取信息的重要工具,涌現(xiàn)出以百度、谷歌等為代表的搜索引擎巨頭;機(jī)器翻譯也從實(shí)驗(yàn)室走入尋常百姓家,谷歌、百度等公司都提供了基于海量網(wǎng)絡(luò)數(shù)據(jù)的機(jī)器翻譯和輔助翻譯工具;基于自然語(yǔ)言處理的中文(輸入法如搜狗、微軟、谷歌等輸入法)成為計(jì)算機(jī)用戶(hù)的必備工具;帶有語(yǔ)音識(shí)別的計(jì)算機(jī)和手機(jī)也正大行其道,協(xié)助用戶(hù)更有效地工作學(xué)習(xí)??傊?,隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),自然語(yǔ)言處理正在人們的日常生活中扮演著越來(lái)越重要的作用。
然而,我們同時(shí)面臨著一個(gè)嚴(yán)峻事實(shí),那就是如何有效利用海量信息已成為制約信息技術(shù)發(fā)展的一個(gè)全局性瓶頸問(wèn)題。自然語(yǔ)言處理無(wú)可避免地成為信息科學(xué)技術(shù)中長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。同時(shí),人們逐漸意識(shí)到,單純依靠統(tǒng)計(jì)方法已經(jīng)無(wú)法快速有效地從海量數(shù)據(jù)中學(xué)習(xí)語(yǔ)言知識(shí),只有同時(shí)充分發(fā)揮基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的各自?xún)?yōu)勢(shì),兩者互相補(bǔ)充,才能夠更好、更快地進(jìn)行自然語(yǔ)言處理。
自然語(yǔ)言處理作為一個(gè)年齡尚不足一個(gè)世紀(jì)的新興學(xué)科,正在進(jìn)行著突飛猛進(jìn)的發(fā)展?;仡欁匀徽Z(yǔ)言處理的發(fā)展歷程,并不是一帆風(fēng)順,有過(guò)低谷,也有過(guò)高潮。而現(xiàn)在我們正面臨著新的挑戰(zhàn)和機(jī)遇。例如,目前網(wǎng)絡(luò)搜索引擎基本上還停留在關(guān)鍵詞匹配,缺乏深層次的自然語(yǔ)言處理和理解。語(yǔ)音識(shí)別、文字識(shí)別、問(wèn)答系統(tǒng)、機(jī)器翻譯等目前也只能達(dá)到很基本的水平。路漫漫其修遠(yuǎn)兮,自然語(yǔ)言處理作為一個(gè)高度交叉的新興學(xué)科,不論是探究自然本質(zhì)還是付諸實(shí)際應(yīng)用,在將來(lái)必定會(huì)有令人期待的驚喜和異??焖俚陌l(fā)展。