国产成人精品午夜福免费_日本欧美中文日韩v在线_午夜免费在线观看午夜在线_超碰在线观看97_亚洲中文字幕无码重口变态_日本特黄在线观看的_激情依依av男人的天堂_一本大道大臿蕉视频无码_欧美激情久久电影国产精品99_十八禁网站美女自慰

SEO百度分詞技術(shù)跟百度分詞工具

做SEO的朋友壹一般喜歡研究關(guān)鍵詞,而關(guān)鍵詞搜索又會(huì)涉及到分詞算法。百度分詞技術(shù)就是百度針對(duì)用戶提交查詢的關(guān)鍵詞串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。所謂分詞就是把字與字連在一起的漢語句子分成若干個(gè)相互獨(dú)立、完整、正確的單詞。詞是最小的、能獨(dú)立活動(dòng)的、有意義的語言成分。

計(jì)算機(jī)的所有語言知識(shí)都來自機(jī)器詞典(給出詞的各項(xiàng)信息) 、句法規(guī)則(以詞類的各種組合方式來描述詞的聚合現(xiàn)象) 以及有關(guān)詞和句子的語義、語境、語用知識(shí)庫。中文信息處理系統(tǒng)只要涉及句法、語義(如檢索、翻譯、文摘、校對(duì)等應(yīng)用) ,就需要以詞為基本單位。當(dāng)漢字由句轉(zhuǎn)化為詞之后,才能使得句法分析、語句理解、自動(dòng)文摘、自動(dòng)分類和機(jī)器翻譯等文本處理具有可行性??梢哉f,分詞是機(jī)器 語言學(xué)的基礎(chǔ)。

百度分詞的4個(gè)原理:

1、基于理解:傻瓜式匹配,小于等于3個(gè)中文字符百度是不進(jìn)行切詞的,比如搜索“大學(xué)堂”。

2、基于統(tǒng)計(jì):百度把一個(gè)詞標(biāo)紅的原因:標(biāo)紅的詞一般是一個(gè)關(guān)鍵詞,你搜索“學(xué)”字的時(shí)候,百度它自認(rèn)的把“學(xué)習(xí)”也當(dāng)成了一個(gè)關(guān)鍵詞,所以出現(xiàn)“學(xué)習(xí)”這個(gè)詞標(biāo)紅,這就是百度分詞法:基于統(tǒng)計(jì)分詞。

3、基于字符串匹配(百度的分詞法:正向最大切詞法)

最大與最小(最大匹配:一直匹配到?jīng)]詞可配;最小匹配:匹配出詞了就停止匹配,再從另一個(gè)詞開始匹配)比如:百度搜索“湖南大學(xué)堂屋頂”,百度的一個(gè)分詞算法我們把它當(dāng)成一個(gè)黑盒子,我們通過一些輸入關(guān)鍵詞,根據(jù)百度的輸出結(jié)果來判定百度的分詞算法。正向與反向(正向:從前往后配;反向:從后往前配)(湖南大學(xué)堂屋頂)正向分法:湖南大學(xué) 堂屋 頂 (劉強(qiáng)大地方法)正向分法:劉 強(qiáng)大 地方 法。反向分法:方法 大地 劉 強(qiáng)。而在這個(gè)詞語當(dāng)中“大地”不是一個(gè)詞。

4、基于專有詞庫。比如杰出人物(如:毛澤東)明星(如:劉德華)檢索量大的詞(如:買票難) 。

分詞工具(沒有百度的,收集了幾個(gè)開源的分詞工具):

1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)

2、HTTPCWS – 基于HTTP協(xié)議的開源中文分詞系統(tǒng)

3、SCWS – 簡易中文分詞系統(tǒng)

4、PhpanAlysis – PHP無組件分詞系統(tǒng)

5 、MMSEG4J

6、盤古分詞

7、IKAnalyzer 開源的輕量級(jí)中文分詞工具包


發(fā)表評(píng)論 取消回復(fù)

很抱歉,您暫時(shí)無法發(fā)布評(píng)論。需要 登錄 后才能發(fā)布。