亚洲九九美国视频,加勒比系中文字幕无码,好日子在线观看视频大全免费

漢語(yǔ)自動(dòng)分詞的研究現(xiàn)狀，漢語(yǔ)自動(dòng)分詞對(duì)搜索引擎有多大影響？

作者：編輯　來(lái)源：互聯(lián)網(wǎng) 發(fā)布時(shí)間：2018-11-21

┊文章閱讀：次

目前，國(guó)內(nèi)的每個(gè)行業(yè)、領(lǐng)域都在飛速發(fā)展，這中間產(chǎn)生了大量的中文信息資源，為了能夠及時(shí)準(zhǔn)確的獲取最新的信息，中文搜索引擎是必然的產(chǎn)物。中文搜索引擎與西文搜索引擎在實(shí)現(xiàn)的機(jī)制和原理上大致雷同，但由于漢語(yǔ)本身的特點(diǎn)，必須引入對(duì)于中文語(yǔ)言的處理技術(shù)，而漢語(yǔ)自動(dòng)分詞技術(shù)就是其中很關(guān)鍵的部分。漢語(yǔ)自動(dòng)分詞到底對(duì)搜索引擎有多大影響？

漢語(yǔ)自動(dòng)分詞的研究現(xiàn)狀，漢語(yǔ)自動(dòng)分詞對(duì)搜索引擎有多大影響？

對(duì)于搜索引擎來(lái)說(shuō)，最重要的并不是找到所有結(jié)果，最重要的是把最相關(guān)的結(jié)果排在最前面，這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否，常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。分詞準(zhǔn)確性對(duì)搜索引擎來(lái)說(shuō)十分重要，但如果分詞速度太慢，即使準(zhǔn)確性再高，對(duì)于搜索引擎來(lái)說(shuō)也是不可用的，因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè)，如果分詞耗用的時(shí)間過(guò)長(zhǎng)，會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來(lái)說(shuō)，分詞的準(zhǔn)確性和速度，二者都需要達(dá)到很高的要求。

研究漢語(yǔ)自動(dòng)分詞算法，對(duì)中文搜索引擎的發(fā)展具有至關(guān)重要的意義。快速準(zhǔn)確的漢語(yǔ)自動(dòng)分詞是高效中文搜索引擎的必要前提。本課題研究中文搜索引擎中漢語(yǔ)自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)，從目前中文搜索引擎的發(fā)展現(xiàn)狀出發(fā)，引出中文搜索引擎的關(guān)鍵技術(shù)------漢語(yǔ)自動(dòng)分詞系統(tǒng)的設(shè)計(jì)。首先研究和比較了幾種典型的漢語(yǔ)自動(dòng)分詞詞典機(jī)制，指出各詞典機(jī)制的優(yōu)缺點(diǎn)，然后分析和比較了幾種主要的漢語(yǔ)自動(dòng)分詞方法，闡述了各種分詞方法的技術(shù)特點(diǎn)。針對(duì)課題的具體應(yīng)用領(lǐng)域，提出改進(jìn)詞典的數(shù)據(jù)結(jié)構(gòu)，根據(jù)漢語(yǔ)中二字詞較多的特點(diǎn)，通過(guò)快速判斷二字詞來(lái)優(yōu)化速度；分析中文搜索引擎下歧義處理和未登陸詞處理的技術(shù)，提出了適合本課題的自動(dòng)分詞算法，并給出該系統(tǒng)的具體實(shí)現(xiàn)。最后對(duì)系統(tǒng)從分詞速度和分詞準(zhǔn)確性方面進(jìn)行了性能評(píng)價(jià)。本課題的研究將促進(jìn)中文搜索引擎和漢語(yǔ)自動(dòng)分詞新的發(fā)展。

二、漢語(yǔ)自動(dòng)分詞系統(tǒng)的研究現(xiàn)狀

1、幾個(gè)早期的自動(dòng)分詞系統(tǒng)

自80年代初中文信息處理領(lǐng)域提出了自動(dòng)分詞以來(lái)，一些實(shí)用性的分詞系統(tǒng)逐步得以開發(fā)，其中幾個(gè)比較有代表性的自動(dòng)分詞系統(tǒng)在當(dāng)時(shí)產(chǎn)生了較大的影響。

CDWS分詞系統(tǒng)是我國(guó)第一個(gè)實(shí)用的自動(dòng)分詞系統(tǒng)，由北京航空航天大學(xué)計(jì)算機(jī)系于１９８３年設(shè)計(jì)實(shí)現(xiàn)，它采用的自動(dòng)分詞方法為最大匹配法，輔助以詞尾字構(gòu)詞糾錯(cuò)技術(shù)。其分詞速度為5-10字/秒，切分精度約為1/625。

ABWS是山西大學(xué)計(jì)算機(jī)系研制的自動(dòng)分詞系統(tǒng)，系統(tǒng)使用“兩次掃描聯(lián)想-回溯”方法，運(yùn)用了較多的詞法、句法等知識(shí)。其切分正確率為98.6%(不包括非常用、未登錄的專用名詞)，運(yùn)行速度為48詞/分鐘。

CASS是北京航空航天大學(xué)于1988年實(shí)現(xiàn)的分詞系統(tǒng)。它使用正向增字最大匹配，運(yùn)用知識(shí)庫(kù)來(lái)處理歧義字段。其機(jī)械分詞速度為200字/秒以上，知識(shí)庫(kù)分詞速度150字/秒（沒有完全實(shí)現(xiàn)）。

書面漢語(yǔ)自動(dòng)分詞專家系統(tǒng)是由北京師范大學(xué)現(xiàn)代教育研究所于1991前后研制實(shí)現(xiàn)的，它首次將專家系統(tǒng)方法完整地引入到分詞技術(shù)中。

2、清華大學(xué)SEG分詞系統(tǒng)

此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分-評(píng)價(jià)切分算法，由用戶來(lái)選擇合適的切分算法。其特點(diǎn)則是帶修剪的全切分-評(píng)價(jià)算法。經(jīng)過(guò)封閉試驗(yàn)，在多遍切分之后，全切分-評(píng)價(jià)算法的精度可以達(dá)到99%左右。

3、清華大學(xué)SEGTAG系統(tǒng)

此系統(tǒng)著眼于將各種各類的信息進(jìn)行綜合，以便最大限度地利用這些信息提高切分精度。系統(tǒng)使用有向圖來(lái)集成各種各樣的信息。通過(guò)實(shí)驗(yàn)，該系統(tǒng)的切分精度基本上可達(dá)到99%左右，能夠處理未登錄詞比較密集的文本,切分速度約為30字/秒。

4、國(guó)家語(yǔ)委文字所應(yīng)用句法分析技術(shù)的漢語(yǔ)自動(dòng)分詞

此分詞模型考慮了句法分析在自動(dòng)分詞系統(tǒng)中的作用，以更好地解決切分歧義。切詞過(guò)程考慮到了所有的切分可能，并運(yùn)用漢語(yǔ)句法等信息從各種切分可能中選擇出合理的切分結(jié)果。

5、復(fù)旦分詞系統(tǒng)

此系統(tǒng)由四個(gè)模塊構(gòu)成。一、預(yù)處理模塊，利用特殊的標(biāo)記將輸入的文本分割成較短的漢字串，這些標(biāo)記包括標(biāo)點(diǎn)符號(hào)、數(shù)字、字母等非漢字符，還包括文本中常見的一些字體、字號(hào)等排版信息。二、歧義識(shí)別模塊，使用正向最小匹配和逆向最大匹配對(duì)文本進(jìn)行雙向掃描，如果兩種掃描結(jié)果相同，則認(rèn)為切分正確，否則就判別其為歧義字段，需要進(jìn)行歧義處理；三、歧義字段處理模塊，此模塊使用構(gòu)詞規(guī)則和詞頻統(tǒng)計(jì)信息來(lái)進(jìn)行排歧。最后，此系統(tǒng)還包括一個(gè)未登錄詞識(shí)別模塊，實(shí)驗(yàn)過(guò)程中，對(duì)中文姓氏的自動(dòng)辨別達(dá)到了70%的準(zhǔn)確率。系統(tǒng)對(duì)文本中的地名和領(lǐng)域?qū)Ｓ性~匯也進(jìn)行了一定的識(shí)別。

6、哈工大統(tǒng)計(jì)分詞系統(tǒng)

此系統(tǒng)能夠利用上下文識(shí)別大部分生詞，解決一部分切分歧義。經(jīng)測(cè)試，此系統(tǒng)的分詞錯(cuò)誤率為1.5%，速度為236字/秒。

7、杭州大學(xué)改進(jìn)的MM分詞系統(tǒng)

系統(tǒng)的詞典采用一級(jí)首字索引結(jié)構(gòu)，詞條中包括了“非連續(xù)詞”（形如C1…*Cn）。系統(tǒng)精度的實(shí)驗(yàn)結(jié)果為95%，低于理論值99.73%，但高于通常的MM、RMM、DMM方法。

8、MicrosoftResearch漢語(yǔ)句法分析器中的自動(dòng)分詞

微軟研究院的自然語(yǔ)言研究所在從90年代初開始開發(fā)了一個(gè)通用型的多國(guó)語(yǔ)言處理平臺(tái)NLPWin，據(jù)報(bào)道，NLPWin的語(yǔ)法分析部分使用的是一種雙向的ChartParsing，使用了語(yǔ)法規(guī)則并以概率模型作導(dǎo)向，并且將語(yǔ)法和分析器獨(dú)立開。實(shí)驗(yàn)結(jié)果表明，系統(tǒng)可以正確處理85%的歧義切分字段，在Pentium200PC上的速度約600-900字/秒。

9、北大計(jì)算語(yǔ)言所分詞系統(tǒng)

本系統(tǒng)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制開發(fā)，屬于分詞和詞類標(biāo)注相結(jié)合的分詞系統(tǒng)。系統(tǒng)的分詞連同標(biāo)注的速度在Pentium133Hz/16MB內(nèi)存機(jī)器上的達(dá)到了每秒3千詞以上，而在PentiumII/64MB內(nèi)存機(jī)器上速度高達(dá)每秒5千詞。

三、主要的自動(dòng)分詞算法

現(xiàn)有的分詞算法主要可分為三大類：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。

1、基于字符串匹配的分詞方法

這種方法又叫做機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出一個(gè)詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大（最長(zhǎng)）匹配和最?。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標(biāo)注過(guò)程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下；

1正向最大匹配

2逆向最大匹配

3最少切分（使每一句中切出的詞數(shù)最?。?/p>

還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn)，正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái)，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明，單純使用正向最大匹配的錯(cuò)誤率為1/169，單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。由于分詞是一個(gè)智能決策過(guò)程，機(jī)械分詞方法無(wú)法解決分詞階段的兩大基本問(wèn)題：歧義切分問(wèn)題和未登錄詞識(shí)別問(wèn)題。實(shí)際使用的分詞系統(tǒng)，都是把機(jī)械分詞作為一種初分手段，還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。

一種方法是改進(jìn)掃描方式，稱為特征掃描或標(biāo)志切分，優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞，以這些詞作為斷點(diǎn)，可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞，從而減少匹配的錯(cuò)誤率。

另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái)，利用豐富的詞類信息對(duì)分詞決策提供幫助，并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整，從而極大地提高切分的準(zhǔn)確率。

對(duì)于機(jī)械分詞方法，可以建立一個(gè)一般的模型，形式地表示為ASM(d,a,m)，即AutomaticSegmentationModel。其中，

d：匹配方向，+1表示正向，-1表示逆向；

a：每次匹配失敗后增加/減少字串長(zhǎng)度（字符數(shù)），+1為增字，-1為減字；

m：最大/最小匹配標(biāo)志，+1為最大匹配，-1為最小匹配。

例如，ASM(+,-,+)就是正向減字最大匹配法（即MM方法），ASM(-,-,+)就是逆向減字最大匹配法(即RMM方法)，等等。對(duì)于現(xiàn)代漢語(yǔ)來(lái)說(shuō)，只有m=+1是實(shí)用的方法。用這種模型可以對(duì)各種方法的復(fù)雜度進(jìn)行比較，假設(shè)在詞典的匹配過(guò)程都使用順序查找和相同的計(jì)首字索引查找方法，則在不記首字索引查找次數(shù)（最小為log<漢字總數(shù)>12~14）和詞典讀入內(nèi)存時(shí)間的情況下，對(duì)于典型的詞頻分布，減字匹配ASM(d,-,m)的復(fù)雜度約為12.3次，增字匹配ASM(d,+,m)的復(fù)雜度約為10.6。

2、基于理解的分詞方法

通常的分析系統(tǒng)，都力圖在分詞階段消除所有歧義切分現(xiàn)象。而有些系統(tǒng)則在后續(xù)過(guò)程中來(lái)處理歧義切分問(wèn)題，其分詞過(guò)程只是整個(gè)語(yǔ)言理解過(guò)程的一小部分。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析，利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分：分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷，即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性，難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

在不久的將來(lái)，多智時(shí)代一定會(huì)徹底走入我們的生活，有興趣入行未來(lái)前沿產(chǎn)業(yè)的朋友，可以收藏多智時(shí)代，及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的入門知識(shí)和資訊信息，讓我們一起攜手，引領(lǐng)人工智能的未來(lái)

上一篇：飄窗改造的最高境界，不拆不砸，空間足足擴(kuò)大了20平
下一篇：沒有了

加入收藏查看評(píng)論復(fù)制給好友打印本頁(yè)關(guān)閉窗口

漢語(yǔ)自動(dòng)分詞的研究現(xiàn)狀，漢語(yǔ)自動(dòng)分詞對(duì)搜索引擎有多大影響？

熱門文章 Top Article

最新文章 Top Article

漢語(yǔ)自動(dòng)分詞的研究現(xiàn)狀，漢語(yǔ)自動(dòng)分詞對(duì)搜索引擎有多大影響？

熱門文章 Top Article

最新文章 Top Article

漢語(yǔ)自動(dòng)分詞的研究現(xiàn)狀，漢語(yǔ)自動(dòng)分詞對(duì)搜索引擎有多大影響？