1. 前言

中文分詞≠自然語言處理!
Hanlp
HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環(huán)境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
功能:中文分詞 詞性標注 命名實體識別 依存句法分析 關鍵詞提取新詞發(fā)現 短語提取 自動摘要 文本分類 拼音簡繁
中文分詞只是第一步;HanLP從中文分詞開始,覆蓋詞性標注、命名實體識別、句法分析、文本分類等常用任務,提供了豐富的API。
不同于一些簡陋的分詞類庫,HanLP精心優(yōu)化了內部數據結構和IO接口,做到了毫秒級的冷啟動、千萬字符每秒的處理速度,而內存最低僅需120MB。無論是移動設備還是大型集群,都能獲得良好的體驗。
不同于市面上的商業(yè)工具,HanLP提供訓練模塊,可以在用戶的語料上訓練模型并替換默認模型,以適應不同的領域。項目主頁上提供了詳細的文檔,以及在一些開源語料上訓練的模型。
HanLP希望兼顧學術界的精準與工業(yè)界的效率,在兩者之間取一個平衡,真正將自然語言處理普及到生產環(huán)境中去。
我們使用的pyhanlp是用python包裝了HanLp的java接口。
2. pyhanlp的安裝和使用
2.1 python下安裝pyhanlp
pip安裝
sudo pip3 install pyhanlp
分享標題:pyhanlp安裝介紹和簡單應用-創(chuàng)新互聯
文章網址:http://chinadenli.net/article32/cdocpc.html
成都網站建設公司_創(chuàng)新互聯,為您提供手機網站建設、網站收錄、網站策劃、自適應網站、外貿建站、營銷型網站建設
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯