分詞函數(shù)python 分詞百度百科

1. jieba中文處理

jieba是一個在中文自然語言處理中用的最多的工具包之一，它以分詞起家，目前已經(jīng)能夠?qū)崿F(xiàn)包括分詞、詞性標注以及命名實體識別等多種功能。既然Jieba是以分詞起家，我們自然要首先學習Jieba的中文分詞功能。Jieba提供了三種分詞模式：

成都創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供民樂網(wǎng)站建設、民樂做網(wǎng)站、民樂網(wǎng)站設計、民樂網(wǎng)站制作等企業(yè)網(wǎng)站建設、網(wǎng)頁設計與制作、民樂企業(yè)網(wǎng)站模板建站服務，十年民樂做網(wǎng)站經(jīng)驗，不只是建網(wǎng)站，更提供有價值的思路和整體網(wǎng)絡服務。

在jieba分詞中，最常用的分詞函數(shù)有兩個，分別是 cut 和 cut_for_search ，分別對應于“精確模式/全模式”和“搜索引擎模式”。

當然，兩者的輸入?yún)?shù)也不一樣，cut函數(shù)的輸入主要有三個，分別是：

cut_for_search 函數(shù)主要有兩個參數(shù)：

需要注意的是， cut 和 cut_for_search 返回的都是generator，如果想直接返回列表，需要使用 lcut 和 lcut_for_search

如果在一些特定場景中，需要使用一些特殊詞匯進行分詞，就需要加載自定義的分詞詞典：

其中，用戶字典的格式為：

每一行表示一個單詞，每行最多由三部分組成

如果只是少量詞匯，可以使用

需要注意的是，如果沒有給出詞頻和詞性信息，在后續(xù)的處理中可能會造成一定的影響。

jieba提供了兩種關鍵詞提取算法，分別是TF-IDF以及TextRank

關于TF-IDF的原理，可以參考吳軍老師的《數(shù)學之美》，里面給出了很詳細的說明。本文只介紹利用TF-IDF算法提取關鍵詞。

其中：

TextRank的用法與extract_tags的函數(shù)定義完全一致

詞性標注主要是在分詞的基礎上，對詞的詞性進行判別，在jieba中可以使用如下方式進行：

在jieba中采用將目標文檔按行分割，對每一行采用一個Python進程進行分詞處理，然后將結(jié)果歸并到一起（有點類似于MapReduce）。據(jù)說目前尚不支持Windows，僅支持Linux和MacOS。

啟動并行分詞使用如下命令：

關閉并行分詞使用如下命令：

使用tokenize函數(shù)后，會獲得一個詞語信息的元組，元組中的第一個元素是分詞得到的結(jié)果，第二個元素是詞的起始位置，第三個元素是詞的終止位置。

除了本文介紹的jieba分詞工具包以外，還有很多好用的中文分詞工具，比如

jieba分詞（R vs. python）

自然語言處理（NLP）是機器學習重要分支之一，主要應用于篇章理解、文本摘要、情感分析、知識圖譜、文本翻譯等領域。而NLP應用首先是對文本進行分詞，當前中文分詞器有Ansj、paoding、盤古分詞等多種，而最基礎的分詞器應該屬于jieba分詞器（比較見下圖）。

下面將分別應用R和python對jieba分詞器在中文分詞、詞性標注和關鍵詞提取領域的應用進行比較。

R實現(xiàn)

通過函數(shù)worker()來初始化分詞引擎，使用segment()進行分詞。有四種分詞模式:最大概率法（MP）、隱馬爾科夫模型（HMM）、混合模型（Mix）及索引模型（query）,默認為混合模型。具體可查看help(worker).

#install.packages('jiebaR')library(jiebaR)mixseg - worker()segment( "這是一段測試文本" , mixseg ) #或者用以下操作mixseg['這是一段測試文本']mixseg = "這是一段測試文本"

python實現(xiàn)

python中需安裝jieba庫，運用jieba.cut實現(xiàn)分詞。cut_all參數(shù)為分詞類型，默認為精確模式。

import jiebaseg_list = jieba.cut(u"這是一段測試文本",cut_all = False)print("Full mode: "+ ",".join(seg_list))? #默認精確模式

無論是R還是python都為utf—8編碼。

R實現(xiàn)

可以使用=.tagger 或者tag 來進行分詞和詞性標注，詞性標注使用混合模型模型分詞，標注采用和 ictclas 兼容的標記法。

words = "我愛北京天安門"tagger = worker("tag") #開啟詞性標注啟發(fā)器tagger = words? ? #? ? r? ? ? ? v? ? ? ns? ? ? ns? ? # "我"? ? "愛"? "北京" "天安門"

python實現(xiàn)

#詞性標注import jieba.posseg as psegwords = pseg.cut("我愛北京天安門")for word,flag in words:? ? print('%s, %s' %(word,flag))

R實現(xiàn)

R關鍵詞提取使用逆向文件頻率（IDF）文本語料庫,通過worker參數(shù)“keywords”開啟關鍵詞提取啟發(fā)器，topn參數(shù)為關鍵詞的個數(shù)。

keys = worker("keywords",topn = 5, idf = IDFPATH)keys = "會議邀請到美國密歇根大學(University of Michigan, Ann Arbor）環(huán)境健康科學系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學術(shù)講座，介紹美國密歇根Flint市飲用水污染事故的發(fā)生發(fā)展和處置等方面內(nèi)容。講座后各相關單位同志與奚傳武教授就生活飲用水在線監(jiān)測系統(tǒng)、美國水污染事件的處置方式、生活飲用水老舊管網(wǎng)改造、如何有效減少消毒副產(chǎn)物以及美國涉水產(chǎn)品和二次供水單位的監(jiān)管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛(wèi)生管理工作洽商機制運行以來的又一次新嘗試，也為我市衛(wèi)生計生綜合監(jiān)督部門探索生活飲用水衛(wèi)生安全管理模式及突發(fā)水污染事件的應對措施開拓了眼界和思路。"#結(jié)果：#? ? ? ? 48.8677? ? ? ? 23.4784? ? ? ? 22.1402? ? ? ? 20.326? ? ? ? 18.5354 #? ? ? "飲用水"? ? ? ? "Flint"? ? ? ? "衛(wèi)生"? ? ? "水污染"? ? ? ? "生活"

python實現(xiàn)

python實現(xiàn)關鍵詞提取可運用TF-IDF方法和TextRank方法。allowPOS參數(shù)為限定范圍詞性類型。

#關鍵詞提取import jieba.analysecontent = u'會議邀請到美國密歇根大學(University of Michigan, Ann Arbor）環(huán)境健康科學系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學術(shù)講座，介紹美國密歇根Flint市飲用水污染事故的發(fā)生發(fā)展和處置等方面內(nèi)容。講座后各相關單位同志與奚傳武教授就生活飲用水在線監(jiān)測系統(tǒng)、美國水污染事件的處置方式、生活飲用水老舊管網(wǎng)改造、如何有效減少消毒副產(chǎn)物以及美國涉水產(chǎn)品和二次供水單位的監(jiān)管模式等問題進行了探討和交流。本次交流會是我市生活飲用水衛(wèi)生管理工作洽商機制運行以來的又一次新嘗試，也為我市衛(wèi)生計生綜合監(jiān)督部門探索生活飲用水衛(wèi)生安全管理模式及突發(fā)水污染事件的應對措施開拓了眼界和思路。'#基于TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:? ? ? ? print item[0],item[1]? #基于TF-IDF結(jié)果# 飲用水 0.448327672795# Flint 0.219353532163# 衛(wèi)生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基于TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:? ? ? ? print item[0],item[1]? ? #基于TextRank結(jié)果：# 飲用水 1.0# 美國 0.570564785973# 奚傳武 0.510738424509# 單位 0.472841889334# 講座 0.443770732053

寫在文后

自然語言處理（NLP）在數(shù)據(jù)分析領域有其特殊的應用，在R中除了jiebaR包，中文分詞Rwordseg包也非常常用。一般的文本挖掘步驟包括：文本獲?。ㄖ饕镁W(wǎng)絡爬取）——文本處理（分詞、詞性標注、刪除停用詞等）——文本分析（主題模型、情感分析）——分析可視化（詞云、知識圖譜等）。本文是自然語言處理的第一篇，后續(xù)將分別總結(jié)下應用深度學習Word2vec進行詞嵌入以及主題模型、情感分析的常用NLP方法。

參考資料

Introduction · jiebaR 中文分詞

知乎：【文本分析】利用jiebaR進行中文分詞

雪晴數(shù)據(jù)網(wǎng)：全棧數(shù)據(jù)工程師養(yǎng)成攻略

搜狗實驗室，詞性標注應用

【R文本挖掘】中文分詞Rwordseg

如何用PYTHON做分詞處理

可以利用python的jieba分詞，得到文本中出現(xiàn)次數(shù)較多的詞。

首先pip安裝一下jieba，這個可以分詞

然后用計數(shù)器Counter()統(tǒng)計一下得到的分詞中各詞的數(shù)量

最后most_common(5)，是打印出排名前五位的詞（包括特殊符號）

#encoding:utf-8

import?sys

reload(sys)

sys.setdefaultencoding('utf-8')

import?jieba

from?collections?import?Counter

str1?=?open('tips.txt').read()

wordlist_after_jieba?=?jieba.cut(str1,?cut_all?=?True)

list_wl?=?Counter(wordlist_after_jieba)

for?i?in?list_wl.most_common(5):

print?i[0],i[1]

如何利用Python對中文進行分詞處理

python做中文分詞處理主要有以下幾種：結(jié)巴分詞、NLTK、THULAC

1、fxsjy/jieba

結(jié)巴的標語是：做最好的 Python 中文分詞組件，或許從現(xiàn)在來看它沒做到最好，但是已經(jīng)做到了使用的人最多。結(jié)巴分詞網(wǎng)上的學習資料和使用案例比較多，上手相對比較輕松，速度也比較快。

結(jié)巴的優(yōu)點：

支持三種分詞模式

支持繁體分詞

支持自定義詞典

MIT 授權(quán)協(xié)議

2、THULAC：一個高效的中文詞法分析工具包

前兩天我在做有關于共享單車的用戶反饋分類，使用jieba分詞一直太過零散，分類分不好。后來江兄給我推薦了THULAC：由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包。THULAC的接口文檔很詳細，簡單易上手。

THULAC分詞的優(yōu)點：

能力強。利用規(guī)模最大的人工分詞和詞性標注中文語料庫（約含5800萬字）訓練而成，模型標注能力強大。

準確率高。該工具包在標準數(shù)據(jù)集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標注的F1值可達到92.9％

速度較快。同時進行分詞和詞性標注速度為300KB/s，每秒可處理約15萬字。只進行分詞速度達到1.3MB/s，速度比jieba慢

Python 解決中文編碼問題基本可以用以下邏輯：

utf8（輸入） —— unicode（處理） —— （輸出）utf8

Python 里面處理的字符都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什么編碼）解碼為（decode）unicode編碼，然后輸出時再編碼（encode）成所需編碼。

由于處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然后使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結(jié)果回txt 的時候再編碼成utf8（直接用str() 函數(shù)就可以了）。

jieba庫的使用

/jieba庫是python中一個重要的第三方中文分詞函數(shù)庫.(這名字起的,我給作者滿分)

/jieba庫的分詞原理是利用一個中文詞庫,將待分詞的內(nèi)容與分詞詞庫進行比對,通過圖結(jié)構(gòu) 和動態(tài)規(guī)劃方法找到最大的概率的詞組.除了分詞,jieba還提供了自定義中文單詞的功能.(并不知道劃線的兩種方法是什么......)

/jieba庫支持3種分詞模式:

精確模式:將句子最精確的切開,適合文本分析.?

全模式:把句子中所有可以成詞的詞語都掃描出來,速度快,但不能消除歧義.?

搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞.?

/jieba庫常用的分詞函數(shù):

1. jieba.cut(s) :精確模式,返回一個可迭代的數(shù)據(jù)類型.

2. jieba.cut(s,cut_all=True) :全模式,輸出文本s中所有可能的單詞.

3. jieba.cut_for_search(s) :搜索引擎模式,適合搜索引擎建立索引的分詞結(jié)果.

4. jieba.lcut(s) :精確模式,返回一個列表類型(建議使用).

5. jieba.lcut(s,cut_all=True) :全模式,返回一個列表類型(建議使用).

6. jieba.lcut_for_search(s) :搜索引擎模式,返回一個列表類型(建議使用).

7. jierba.add_word(w) :向分詞詞典中增加新詞w.

分享名稱：分詞函數(shù)python 分詞百度百科
鏈接分享：http://chinadenli.net/article4/hpioie.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站設計、網(wǎng)站設計公司、關鍵詞優(yōu)化、、虛擬主機、網(wǎng)站導航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

分詞函數(shù)python 分詞百度百科

1. jieba中文處理

jieba分詞（R vs. python）

如何用PYTHON做分詞處理

如何利用Python對中文進行分詞處理

jieba庫的使用