欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

分詞函數(shù)python 分詞百度百科

1. jieba中文處理

jieba是一個(gè)在中文自然語(yǔ)言處理中用的最多的工具包之一,它以分詞起家,目前已經(jīng)能夠?qū)崿F(xiàn)包括分詞、詞性標(biāo)注以及命名實(shí)體識(shí)別等多種功能。既然Jieba是以分詞起家,我們自然要首先學(xué)習(xí)Jieba的中文分詞功能。Jieba提供了三種分詞模式:

成都創(chuàng)新互聯(lián)專(zhuān)業(yè)為企業(yè)提供民樂(lè)網(wǎng)站建設(shè)、民樂(lè)做網(wǎng)站、民樂(lè)網(wǎng)站設(shè)計(jì)、民樂(lè)網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、民樂(lè)企業(yè)網(wǎng)站模板建站服務(wù),十年民樂(lè)做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

在jieba分詞中,最常用的分詞函數(shù)有兩個(gè),分別是 cut 和 cut_for_search ,分別對(duì)應(yīng)于“精確模式/全模式”和“搜索引擎模式”。

當(dāng)然,兩者的輸入?yún)?shù)也不一樣,cut函數(shù)的輸入主要有三個(gè),分別是:

cut_for_search 函數(shù)主要有兩個(gè)參數(shù):

需要注意的是, cut 和 cut_for_search 返回的都是generator,如果想直接返回列表,需要使用 lcut 和 lcut_for_search

如果在一些特定場(chǎng)景中,需要使用一些特殊詞匯進(jìn)行分詞,就需要加載自定義的分詞詞典:

其中,用戶(hù)字典的格式為:

每一行表示一個(gè)單詞,每行最多由三部分組成

如果只是少量詞匯,可以使用

需要注意的是,如果沒(méi)有給出詞頻和詞性信息,在后續(xù)的處理中可能會(huì)造成一定的影響。

jieba提供了兩種關(guān)鍵詞提取算法,分別是TF-IDF以及TextRank

關(guān)于TF-IDF的原理,可以參考吳軍老師的《數(shù)學(xué)之美》,里面給出了很詳細(xì)的說(shuō)明。本文只介紹利用TF-IDF算法提取關(guān)鍵詞。

其中:

TextRank的用法與extract_tags的函數(shù)定義完全一致

詞性標(biāo)注主要是在分詞的基礎(chǔ)上,對(duì)詞的詞性進(jìn)行判別,在jieba中可以使用如下方式進(jìn)行:

在jieba中采用將目標(biāo)文檔按行分割,對(duì)每一行采用一個(gè)Python進(jìn)程進(jìn)行分詞處理,然后將結(jié)果歸并到一起(有點(diǎn)類(lèi)似于MapReduce)。據(jù)說(shuō)目前尚不支持Windows,僅支持Linux和MacOS。

啟動(dòng)并行分詞使用如下命令:

關(guān)閉并行分詞使用如下命令:

使用tokenize函數(shù)后,會(huì)獲得一個(gè)詞語(yǔ)信息的元組,元組中的第一個(gè)元素是分詞得到的結(jié)果,第二個(gè)元素是詞的起始位置,第三個(gè)元素是詞的終止位置。

除了本文介紹的jieba分詞工具包以外,還有很多好用的中文分詞工具,比如

jieba分詞(R vs. python)

自然語(yǔ)言處理(NLP)是機(jī)器學(xué)習(xí)重要分支之一,主要應(yīng)用于篇章理解、文本摘要、情感分析、知識(shí)圖譜、文本翻譯等領(lǐng)域。而NLP應(yīng)用首先是對(duì)文本進(jìn)行分詞,當(dāng)前中文分詞器有Ansj、paoding、盤(pán)古分詞等多種,而最基礎(chǔ)的分詞器應(yīng)該屬于jieba分詞器(比較見(jiàn)下圖)。

下面將分別應(yīng)用R和python對(duì)jieba分詞器在中文分詞、詞性標(biāo)注和關(guān)鍵詞提取領(lǐng)域的應(yīng)用進(jìn)行比較。

R實(shí)現(xiàn)

通過(guò)函數(shù)worker()來(lái)初始化分詞引擎,使用segment()進(jìn)行分詞。有四種分詞模式:最大概率法(MP)、隱馬爾科夫模型(HMM)、混合模型(Mix)及索引模型(query),默認(rèn)為混合模型。具體可查看help(worker).

#install.packages('jiebaR')library(jiebaR)mixseg - worker()segment( "這是一段測(cè)試文本" , mixseg ) #或者用以下操作mixseg['這是一段測(cè)試文本']mixseg = "這是一段測(cè)試文本"

python實(shí)現(xiàn)

python中需安裝jieba庫(kù),運(yùn)用jieba.cut實(shí)現(xiàn)分詞。cut_all參數(shù)為分詞類(lèi)型,默認(rèn)為精確模式。

import jiebaseg_list = jieba.cut(u"這是一段測(cè)試文本",cut_all = False)print("Full mode: "+ ",".join(seg_list))? #默認(rèn)精確模式

無(wú)論是R還是python都為utf—8編碼。

R實(shí)現(xiàn)

可以使用=.tagger 或者tag 來(lái)進(jìn)行分詞和詞性標(biāo)注,詞性標(biāo)注使用混合模型模型分詞,標(biāo)注采用和 ictclas 兼容的標(biāo)記法。

words = "我愛(ài)北京天安門(mén)"tagger = worker("tag") #開(kāi)啟詞性標(biāo)注啟發(fā)器tagger = words? ? #? ? r? ? ? ? v? ? ? ns? ? ? ns? ? # "我"? ? "愛(ài)"? "北京" "天安門(mén)"

python實(shí)現(xiàn)

#詞性標(biāo)注import jieba.posseg as psegwords = pseg.cut("我愛(ài)北京天安門(mén)")for word,flag in words:? ? print('%s, %s' %(word,flag))

R實(shí)現(xiàn)

R關(guān)鍵詞提取使用逆向文件頻率(IDF)文本語(yǔ)料庫(kù),通過(guò)worker參數(shù)“keywords”開(kāi)啟關(guān)鍵詞提取啟發(fā)器,topn參數(shù)為關(guān)鍵詞的個(gè)數(shù)。

keys = worker("keywords",topn = 5, idf = IDFPATH)keys = "會(huì)議邀請(qǐng)到美國(guó)密歇根大學(xué)(University of Michigan, Ann Arbor)環(huán)境健康科學(xué)系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學(xué)術(shù)講座,介紹美國(guó)密歇根Flint市飲用水污染事故的發(fā)生發(fā)展和處置等方面內(nèi)容。講座后各相關(guān)單位同志與奚傳武教授就生活飲用水在線(xiàn)監(jiān)測(cè)系統(tǒng)、美國(guó)水污染事件的處置方式、生活飲用水老舊管網(wǎng)改造、如何有效減少消毒副產(chǎn)物以及美國(guó)涉水產(chǎn)品和二次供水單位的監(jiān)管模式等問(wèn)題進(jìn)行了探討和交流。本次交流會(huì)是我市生活飲用水衛(wèi)生管理工作洽商機(jī)制運(yùn)行以來(lái)的又一次新嘗試,也為我市衛(wèi)生計(jì)生綜合監(jiān)督部門(mén)探索生活飲用水衛(wèi)生安全管理模式及突發(fā)水污染事件的應(yīng)對(duì)措施開(kāi)拓了眼界和思路。"#結(jié)果:#? ? ? ? 48.8677? ? ? ? 23.4784? ? ? ? 22.1402? ? ? ? 20.326? ? ? ? 18.5354 #? ? ? "飲用水"? ? ? ? "Flint"? ? ? ? "衛(wèi)生"? ? ? "水污染"? ? ? ? "生活"

python實(shí)現(xiàn)

python實(shí)現(xiàn)關(guān)鍵詞提取可運(yùn)用TF-IDF方法和TextRank方法。allowPOS參數(shù)為限定范圍詞性類(lèi)型。

#關(guān)鍵詞提取import jieba.analysecontent = u'會(huì)議邀請(qǐng)到美國(guó)密歇根大學(xué)(University of Michigan, Ann Arbor)環(huán)境健康科學(xué)系副教授奚傳武博士作題為“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的學(xué)術(shù)講座,介紹美國(guó)密歇根Flint市飲用水污染事故的發(fā)生發(fā)展和處置等方面內(nèi)容。講座后各相關(guān)單位同志與奚傳武教授就生活飲用水在線(xiàn)監(jiān)測(cè)系統(tǒng)、美國(guó)水污染事件的處置方式、生活飲用水老舊管網(wǎng)改造、如何有效減少消毒副產(chǎn)物以及美國(guó)涉水產(chǎn)品和二次供水單位的監(jiān)管模式等問(wèn)題進(jìn)行了探討和交流。本次交流會(huì)是我市生活飲用水衛(wèi)生管理工作洽商機(jī)制運(yùn)行以來(lái)的又一次新嘗試,也為我市衛(wèi)生計(jì)生綜合監(jiān)督部門(mén)探索生活飲用水衛(wèi)生安全管理模式及突發(fā)水污染事件的應(yīng)對(duì)措施開(kāi)拓了眼界和思路。'#基于TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:? ? ? ? print item[0],item[1]? #基于TF-IDF結(jié)果# 飲用水 0.448327672795# Flint 0.219353532163# 衛(wèi)生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基于TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords:? ? ? ? print item[0],item[1]? ? #基于TextRank結(jié)果:# 飲用水 1.0# 美國(guó) 0.570564785973# 奚傳武 0.510738424509# 單位 0.472841889334# 講座 0.443770732053

寫(xiě)在文后

自然語(yǔ)言處理(NLP)在數(shù)據(jù)分析領(lǐng)域有其特殊的應(yīng)用,在R中除了jiebaR包,中文分詞Rwordseg包也非常常用。一般的文本挖掘步驟包括:文本獲取(主要用網(wǎng)絡(luò)爬取)——文本處理(分詞、詞性標(biāo)注、刪除停用詞等)——文本分析(主題模型、情感分析)——分析可視化(詞云、知識(shí)圖譜等)。本文是自然語(yǔ)言處理的第一篇,后續(xù)將分別總結(jié)下應(yīng)用深度學(xué)習(xí)Word2vec進(jìn)行詞嵌入以及主題模型、情感分析的常用NLP方法。

參考資料

Introduction · jiebaR 中文分詞

知乎:【文本分析】利用jiebaR進(jìn)行中文分詞

雪晴數(shù)據(jù)網(wǎng):全棧數(shù)據(jù)工程師養(yǎng)成攻略

搜狗實(shí)驗(yàn)室,詞性標(biāo)注應(yīng)用

【R文本挖掘】中文分詞Rwordseg

如何用PYTHON做分詞處理

可以利用python的jieba分詞,得到文本中出現(xiàn)次數(shù)較多的詞。

首先pip安裝一下jieba,這個(gè)可以分詞

然后用計(jì)數(shù)器Counter()統(tǒng)計(jì)一下得到的分詞中各詞的數(shù)量

最后most_common(5),是打印出排名前五位的詞(包括特殊符號(hào))

#encoding:utf-8

import?sys

reload(sys)

sys.setdefaultencoding('utf-8')

import?jieba

from?collections?import?Counter

str1?=?open('tips.txt').read()

wordlist_after_jieba?=?jieba.cut(str1,?cut_all?=?True)

list_wl?=?Counter(wordlist_after_jieba)

for?i?in?list_wl.most_common(5):

print?i[0],i[1]

如何利用Python對(duì)中文進(jìn)行分詞處理

python做中文分詞處理主要有以下幾種:結(jié)巴分詞、NLTK、THULAC

1、fxsjy/jieba

結(jié)巴的標(biāo)語(yǔ)是:做最好的 Python 中文分詞組件,或許從現(xiàn)在來(lái)看它沒(méi)做到最好,但是已經(jīng)做到了使用的人最多。結(jié)巴分詞網(wǎng)上的學(xué)習(xí)資料和使用案例比較多,上手相對(duì)比較輕松,速度也比較快。

結(jié)巴的優(yōu)點(diǎn):

支持三種分詞模式

支持繁體分詞

支持自定義詞典

MIT 授權(quán)協(xié)議

2、THULAC:一個(gè)高效的中文詞法分析工具包

前兩天我在做有關(guān)于共享單車(chē)的用戶(hù)反饋分類(lèi),使用jieba分詞一直太過(guò)零散,分類(lèi)分不好。后來(lái)江兄給我推薦了THULAC: 由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包 。THULAC的接口文檔很詳細(xì),簡(jiǎn)單易上手。

THULAC分詞的優(yōu)點(diǎn):

能力強(qiáng)。利用規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)(約含5800萬(wàn)字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。

準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese Treebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%

速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s,每秒可處理約15萬(wàn)字。只進(jìn)行分詞速度達(dá)到1.3MB/s,速度比jieba慢

Python 解決中文編碼問(wèn)題基本可以用以下邏輯:

utf8(輸入) —— unicode(處理) —— (輸出)utf8

Python 里面處理的字符都是都是unicode 編碼,因此解決編碼問(wèn)題的方法是把輸入的文本(無(wú)論是什么編碼)解碼為(decode)unicode編碼,然后輸出時(shí)再編碼(encode)成所需編碼。

由于處理的一般為txt 文檔,所以最簡(jiǎn)單的方法,是把txt 文檔另存為utf-8 編碼,然后使用Python 處理的時(shí)候解碼為unicode(sometexts.decode('utf8')),輸出結(jié)果回txt 的時(shí)候再編碼成utf8(直接用str() 函數(shù)就可以了)。

jieba庫(kù)的使用

/jieba庫(kù)是python中一個(gè)重要的第三方中文分詞函數(shù)庫(kù).(這名字起的,我給作者滿(mǎn)分)

/jieba庫(kù)的分詞原理是利用一個(gè)中文詞庫(kù),將待分詞的內(nèi)容與分詞詞庫(kù)進(jìn)行比對(duì),通過(guò) 圖結(jié)構(gòu) 和 動(dòng)態(tài)規(guī)劃 方法找到最大的概率的詞組.除了分詞,jieba還提供了自定義中文單詞的功能.(并不知道劃線(xiàn)的兩種方法是什么......)

/jieba庫(kù)支持3種分詞模式:

精確模式:將句子最精確的切開(kāi),適合文本分析.?

全模式:把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái),速度快,但不能消除歧義.?

搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞.?

/jieba庫(kù)常用的分詞函數(shù):

1. jieba.cut(s) :精確模式,返回一個(gè)可迭代的數(shù)據(jù)類(lèi)型.

2. jieba.cut(s,cut_all=True) :全模式,輸出文本s中所有可能的單詞.

3. jieba.cut_for_search(s) :搜索引擎模式,適合搜索引擎建立索引的分詞結(jié)果.

4. jieba.lcut(s) :精確模式,返回一個(gè)列表類(lèi)型(建議使用).

5. jieba.lcut(s,cut_all=True) :全模式,返回一個(gè)列表類(lèi)型(建議使用).

6. jieba.lcut_for_search(s) :搜索引擎模式,返回一個(gè)列表類(lèi)型(建議使用).

7. jierba.add_word(w) :向分詞詞典中增加新詞w.

分享名稱(chēng):分詞函數(shù)python 分詞百度百科
鏈接分享:http://chinadenli.net/article4/hpioie.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計(jì)網(wǎng)站設(shè)計(jì)公司關(guān)鍵詞優(yōu)化虛擬主機(jī)網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)