中文字幕在线直播,成人免费图片免费观看,国内精品国语自产拍在线观看,国产欧美精品区一区二区三区

什么是中文分詞-中文分詞的應(yīng)用
時(shí)間:2006年12月14日 內(nèi)容來(lái)源: 互諾科技 瀏覽量:0
什么是中文分詞? 
何為分詞?中文分詞與其他的分詞又有什么不同呢?分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,唯獨(dú)詞沒(méi)有一個(gè)形式上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題,但是在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。 

中文分詞的意義和作用 
要想說(shuō)清楚中文分詞的意義和作用,就要提到智能計(jì)算技術(shù)。智能計(jì)算技術(shù)涉及的學(xué)科包括物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、電子機(jī)械、通訊、生理學(xué)、進(jìn)化理論和心理學(xué)等等。簡(jiǎn)單的說(shuō),智能計(jì)算就是讓機(jī)器“能看會(huì)想,能聽(tīng)會(huì)講”。要想實(shí)現(xiàn)這樣的一個(gè)目標(biāo),首先就要讓機(jī)器理解人類(lèi)的語(yǔ)言,只有機(jī)器理解了人類(lèi)的語(yǔ)言文字,才使得人與機(jī)器的交流成為可能。再反觀(guān)我們?nèi)祟?lèi)的語(yǔ)言中,“詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分”,所以對(duì)于中文來(lái)講,將詞確定下來(lái)是理解自然語(yǔ)言的第一步,只有跨越了這一步,中文才能象英文那樣過(guò)渡到短語(yǔ)劃分、概念抽取以及主題分析,以至于自然語(yǔ)言理解,最終達(dá)到智能計(jì)算的最高境界,實(shí)現(xiàn)人類(lèi)的夢(mèng)想。 
從現(xiàn)階段的實(shí)際情況來(lái)看,英文已經(jīng)跨越了分詞這一步,也就是說(shuō)在詞的利用上已經(jīng)先我們一步,并且已經(jīng)展現(xiàn)了良好的應(yīng)用前景,無(wú)論是信息檢索還是主題分析的研究都要強(qiáng)于中文,究其根本原因就是中文要通過(guò)分詞這道難關(guān),只有攻破了這道難關(guān),我們才有希望趕上并超過(guò)英文在信息領(lǐng)域的發(fā)展,所以中文分詞對(duì)我們來(lái)說(shuō)意義重大,可以說(shuō)直接影響到使用中文的每一個(gè)人的方方面面。 

中文分詞的應(yīng)用 
中文分詞主要應(yīng)用于信息檢索、漢字的智能輸入、中外文對(duì)譯、中文校對(duì)、自動(dòng)摘要、自動(dòng)分類(lèi)等很多方面。下面就以信息檢索為例來(lái)說(shuō)明中文分詞的應(yīng)用。 
通過(guò)近幾年的發(fā)展,互聯(lián)網(wǎng)已經(jīng)離我們不再遙遠(yuǎn)。互聯(lián)網(wǎng)上的信息也在急劇膨脹,在這海量的信息中,各類(lèi)信息混雜在一起,要想充分利用這些信息資源就要對(duì)它們進(jìn)行整理,如果由人來(lái)做這項(xiàng)工作,已經(jīng)是不可能的,而如果面對(duì)中文信息不采用分詞技術(shù),那么整理的結(jié)果就過(guò)于粗糙,而導(dǎo)致資源的不可用,例如:“制造業(yè)和服務(wù)業(yè)是兩個(gè)不同的行業(yè)”和“我們出口日本的和服比去年有所增長(zhǎng)”中都有“和服”,而被當(dāng)作同一類(lèi)來(lái)處理,結(jié)果是檢索“和服”的相關(guān)信息,會(huì)將他們都檢索到,在信息量少的情況下,似乎還能夠忍受,如果是海量信息,這樣的結(jié)果就會(huì)令人討厭了。通過(guò)引入分詞技術(shù),就可以使機(jī)器對(duì)海量信息的整理更準(zhǔn)確更合理,在“制造業(yè)和服務(wù)業(yè)是兩個(gè)不同的行業(yè)”中“和服”不會(huì)被當(dāng)做一個(gè)詞來(lái)處理,那么檢索“和服”當(dāng)然不會(huì)將它檢索到,使得檢索結(jié)果更準(zhǔn)確,效率也會(huì)大幅度的提高。 
所以中文分詞的應(yīng)用會(huì)改善我們的生活,使人們真正體會(huì)到科技為我所用。