linux環(huán)境下,沒(méi)有首先安裝python_Levenshtein,用法如下:

公司主營(yíng)業(yè)務(wù):網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì)、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)建站是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。創(chuàng)新互聯(lián)建站推出尚義免費(fèi)做網(wǎng)站回饋大家。
重點(diǎn)介紹幾個(gè)該包中的幾個(gè)計(jì)算字串相似度的幾個(gè)函數(shù)實(shí)現(xiàn)。
1. Levenshtein.hamming(str1, str2)
計(jì)算漢明距離。要求str1和str2必須長(zhǎng)度一致。是描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)。如
2. Levenshtein.distance(str1, str2)
計(jì)算編輯距離(也成Levenshtein距離)。是描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括插入、刪除、替換。如
算法實(shí)現(xiàn) 參考動(dòng)態(tài)規(guī)劃整理:。
3. Levenshtein.ratio(str1, str2)
計(jì)算萊文斯坦比。計(jì)算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的長(zhǎng)度總和,ldist是類編輯距離
注意:這里的類編輯距離不是2中所說(shuō)的編輯距離,2中三種操作中每個(gè)操作+1,而在此處,刪除、插入依然+1,但是替換+2
這樣設(shè)計(jì)的目的:ratio('a', 'c'),sum=2,按2中計(jì)算為(2-1)/2 = 0.5,’a','c'沒(méi)有重合,顯然不合算,但是替換操作+2,就可以解決這個(gè)問(wèn)題。
4. Levenshtein.jaro(s1, s2)
計(jì)算jaro距離,
其中的m為s1, s2的匹配長(zhǎng)度,當(dāng)某位置的認(rèn)為匹配 當(dāng)該位置字符相同,或者在不超過(guò)
t是調(diào)換次數(shù)的一半
5. Levenshtein.jaro_winkler(s1, s2)
計(jì)算Jaro–Winkler距離
可以直接使用python的內(nèi)建函數(shù)cmp():
s1='hello'
s2='hell'
s3='hello?world'
s4='hello'
cmp(s1,s2)
#輸出結(jié)果為1
cmp(s1,s3)
#輸出結(jié)果為-1
cmp(s1,s4)
#輸出結(jié)果為0
字符串按位比較,兩個(gè)字符串第一位字符的ascii碼誰(shuí)大,字符串就大,不再比較后面的;第一個(gè)字符相同就比第二個(gè)字符串,以此類推,需要注意的是空格的ascii碼是32,空(null)的ascii碼是0,比如:
s1='a bc',
s2='a bc ',
則s2s1。
擴(kuò)展資料:
當(dāng)一個(gè)字符串被當(dāng)作數(shù)字來(lái)求值時(shí),根據(jù)以下規(guī)則來(lái)決定結(jié)果的類型和值。
如果包括“.”,“e”或“E”其中任何一個(gè)字符的話,字符串被當(dāng)作float來(lái)求值。否則就被當(dāng)作整數(shù)。
該值由字符串最前面的部分決定。如果字符串以合法的數(shù)字?jǐn)?shù)據(jù)開(kāi)始,就用該數(shù)字作為其值,否則其值為 0(零)。合法數(shù)字?jǐn)?shù)據(jù)由可選的正負(fù)號(hào)開(kāi)始,后面跟著一個(gè)或多個(gè)數(shù)字(可選地包括十進(jìn)制分?jǐn)?shù)),后面跟著可選的指數(shù)。指數(shù)是一個(gè)“e”或者“E”后面跟著一個(gè)或多個(gè)數(shù)字。
參考資料來(lái)源:百度百科-字符串
網(wǎng)頁(yè)題目:python比較字符函數(shù) python3字符串比較
文章地址:http://chinadenli.net/article34/dojippe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、App開(kāi)發(fā)、營(yíng)銷型網(wǎng)站建設(shè)、網(wǎng)站制作、網(wǎng)頁(yè)設(shè)計(jì)公司、用戶體驗(yàn)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)