欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

了解搜索引擎的分詞技術(shù),更好的寫好網(wǎng)站SEO標題

今天主要以百度的中文分詞技術(shù)來講解。通過對搜索引擎分詞技術(shù)的了解,可以讓大家做SEO的時候更合理的去書寫SEO優(yōu)化中的重點,三個標簽的確定。

創(chuàng)新互聯(lián)公司是少有的網(wǎng)站設(shè)計制作、網(wǎng)站設(shè)計、營銷型企業(yè)網(wǎng)站、微信小程序定制開發(fā)、手機APP,開發(fā)、制作、設(shè)計、買鏈接、推廣優(yōu)化一站式服務(wù)網(wǎng)絡(luò)公司,2013年開創(chuàng)至今,堅持透明化,價格低,無套路經(jīng)營理念。讓網(wǎng)頁驚喜每一位訪客多年來深受用戶好評

分詞技術(shù)是中文搜索引擎特有的技術(shù)支持。中文信息和英文信息的差別在于;英文單詞之間用的是空格分隔的,這對中文就行不通了,搜索引擎必須將整個句子切割成小單元詞,如“我的兄弟姐妹”拆分出來的形態(tài)是我、的、兄弟、姐妹。分詞技術(shù)的效率直接影響到整個系統(tǒng)的效率。

分詞的方法基本上有兩種:基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法:

1、基于字符串匹配的分詞方法

按照匹配方向的不同,可分為正向匹配、逆向匹配和最少切詞。可將這三種方法混合起來使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

正向最大匹配:假設(shè)字典中最長的詞語數(shù)字為m,先根據(jù)漢語標點符號及特征詞把漢語切分為短語,然后去取短語的前m個字,在字庫里面查找是否存在這個詞語,如果存在,短語就去掉這個詞;如果不存在就去掉m這個字的最后一個字,接著檢查剩下的詞是否是單字,若是則輸出此字并將此字從短語中去掉,若不是則繼續(xù)判斷字庫中是否存在這個詞,如此反復(fù)循環(huán),直到輸出一個詞,此后繼續(xù)取剩余短語的前m個字反復(fù)循環(huán),這樣就可以將一個短語分成詞語的組合了。

以“我是一個好人”為例,假設(shè)字典中最長詞語字數(shù)為3,正向最大匹配順序為:

1、取出短語“我是一”,檢查“我是一”是否在字典中存在或是一個單字,處理方式是去掉最后面的“一”字

2、檢查短語“我是”是否在字典中存在或是一個單字,處理方式是去掉一個“是”字

3、檢查“我”字是否在字典中存在字典中存在或是一個單字,“我”是一個單字,將“我”輸出

4、繼續(xù)取出短語“是一個”,檢查“是一個”是否存在字典中存在或是一個單字,處理方式是去掉最后的“個”字

5、檢查短語“是一”是否存在字典中存在或是一個單字,處理方式是去掉“一”字

6、檢查“是”字是否存在字典中存在或是一個單字,“是”是一個單字,將“是”字輸出

7、取出短語“一個好”,檢查“一個好”是否在字典中存在或是一個單字,處理方式是去掉最后的”好“字

8、檢查短語“一個”,發(fā)現(xiàn)是字典中一個詞,直接輸出。

9、檢查短語“好人”,發(fā)現(xiàn)是字典中的一個詞,直接輸出

10、最后輸出結(jié)果為:我、是、一個、好人。

逆向最大匹配:以句子結(jié)尾處進行分詞的方法。逆向最大匹配技術(shù)最大的一個作用是用來消歧。如“富營銷線下聚會在下城子鎮(zhèn)舉行”按照正向最大匹配結(jié)果為:富/營銷/線/下/聚會/在/下城子鎮(zhèn)/舉行,很顯然這當(dāng)中產(chǎn)生了歧義。下城子鎮(zhèn)是一個地名,沒有被正確地切分。采用逆向最大匹配技術(shù)可以修正這個錯誤。例如設(shè)定一個分詞節(jié)點大小為7,那么“在下城子鎮(zhèn)舉行”中很顯然“舉行”被分了出來,最后剩下“聚會在下城子鎮(zhèn)”,這樣一來歧義就消除了。

正向最小匹配/逆向最小匹配:一般很少使用到,實際使用中逆向匹配的精確度 高于正向匹配度。

基于統(tǒng)計分詞方法:直接調(diào)用分詞詞典中的若干詞進行匹配,同時也使用統(tǒng)計技術(shù)來識別一些新的詞語,將所有的統(tǒng)計結(jié)果匹配起來發(fā)揮切詞的最高效率。

分詞詞典是搜索引擎判斷詞語的依據(jù),基本上收錄了漢語詞典當(dāng)中所有的詞語。如我們搜索引擎中輸入“我要減肥了”,“減肥”兩字就會被判定為一個詞語,現(xiàn)在網(wǎng)絡(luò)上經(jīng)常會出現(xiàn)一些新造的網(wǎng)絡(luò)流行語如:“神馬”、“犀利哥”等,這樣的詞也都會慢慢地被收錄。分詞詞典只有不斷更新才能滿足我們?nèi)粘K阉髋袛嗟男枨蟆?/p>

分享題目:了解搜索引擎的分詞技術(shù),更好的寫好網(wǎng)站SEO標題
鏈接分享:http://chinadenli.net/article24/ejoije.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)靜態(tài)網(wǎng)站網(wǎng)站改版企業(yè)網(wǎng)站制作虛擬主機微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)