nlpir大數據語義智能分析平臺推薦 nlpir大數據語義智能分析平臺

導讀:
隨著自然語言處理(Natural Language Processing, NLP)技術日趨成熟 , 實現中文分詞的工具也越來越多
。 中文分詞技術作為中文自然語言處理的第一項核心技術 , 是眾多上層任務的首要基礎工作 , 同時在日常的工作中起著基礎性的作用 。
本文將講解如何在Python環境下調用HanLP包進行分詞 , 并結合Python語言簡約的特性 , 實現一行代碼完成中文分詞 。
常用中文分詞工具
工具名稱是否開源工具描述Jieba
(結巴分詞)免費使用jieba庫是一款優秀的支持 Python 第三方中文分詞庫 , jieba支持三種分詞模式:精確模式、全模式和搜索引擎模式 。 SnowNLP
(中文的類庫)免費使用SnowNLP是一個python寫的類庫 , 可以方便的處理中文文本內容 , 是受到了TextBlob的啟發而寫的 , 誕生了一個方便處理中文的類庫 。 FoolNLTK
(中文處理工具包)免費使用FoolNLTK是基于Bi-LSTM模型訓練成的中文分詞工具 , 僅適用于Linux系統 。 Jiagu
(甲骨工具包)免費使用Jiagu以BiLSTM等模型為基礎 , 使用大規模語料訓練而成 。 集成多種NLP基礎處理功能并支持知識圖譜開放信息抽取 。 HanLP
(漢語言處理包)免費使用HanLP是一系列模型與算法組成的NLP工具包 , 由大快搜索主導并完全開源 , 目標是普及自然語言處理在生產環境中的應用 。 HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點 。 pyltp
(哈工大語言云)付費使用pyltp 是哈工大自然語言工作組推出的一款基于Python 封裝的自然語言處理工具 , 提供了分詞 , 詞性標注 , 命名實體識別 , 依存句法分析 , 語義角色標注的功能 。 THULAC(清華中文詞法分析)付費使用THULAC(THU Lexical Analyzer for Chinese)是由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包 , 具有中文分詞和詞性標注功能 。 NLPIR(漢語分詞系統)付費使用NLPIR大數據語義智能分析平臺由北京理工大學大數據搜索與挖掘實驗室研發的“自然語言處理與信息檢索共享平臺 。 01 什么是中文分詞?
眾所周知 , 英文是以詞為單位的 , 詞和詞之間是靠空格隔開 。 而在漢語中 , 詞以字為基本單位 , 但是一篇文章的語義表達卻仍然是以詞來劃分 。 例如 , 英文句子"I am a student" , 用中文則為:"我是一個學生" 。 計算機可以很簡單通過空格知道"student"是一個單詞 , 但是不能很容易明白"學"、"生"兩個字合起來才表示一個詞 。 把中文的漢字序列切分成有意義的詞 , 就是中文分詞 , 有些人也稱為切詞 。 "我是一個學生" , 分詞的結果是:"我 是 一個 學生" 。 因此 , 需要針對中文漢字 , 將其按照一定的方式進行組織 , 分成不同的詞 。

nlpir大數據語義智能分析平臺推薦 nlpir大數據語義智能分析平臺

文章插圖
中文分詞是讓計算機自動識別出句子中的詞 , 然后在詞間加入邊界標記符 。 這個過程的主要困難在于分詞規范、歧義切分和未登陸詞的識別 。
分詞規范可以理解為國人并沒有統一對漢語詞的認識 , 對漢語詞的認識的操作尺度很難把握 , 極易受到主觀因素的影響 , 從而無法提供一個公認的、具有權威性的詞表(例如普通說話人的語感與語言學家的標準就有較大的差異) 。
歧義切分可以舉例如下:"南京市長江大橋"的分詞有兩種切分 , "南京市\長江大橋" 和 "南京\市長\江大橋" 。 這種情況在漢語文本中非常普遍 , 并且處理這類問題往往也要復雜得多 。
未登錄詞的識別(生詞)可以有兩種解釋:一是指已有詞典中沒有收錄的詞;二是指已有的訓練語料中未曾出現過的詞 。 所以從某種意義上來說 , 生詞對分詞的影響是最容易處理的 。
02 HanLP分詞

nlpir大數據語義智能分析平臺推薦 nlpir大數據語義智能分析平臺

文章插圖
1. 安裝HanLP
HanLP的API總體來說并不多 , 且需要進行的配置并不復雜 , 適合新手上手 。 下載完成后 , 可以使用如下命令進行安裝 。 要求Python 3.6以上 , 支持Windows , 可以在CPU上運行 , 推薦GPU/TPU 。
pip install pyhanlp

推薦閱讀