[Python] 中文斷詞: Jieba

jieba
https://github.com/fxsjy/jieba

jieba-zh_TW
https://github.com/ldkrsi/jieba-zh_TW

如何使用 jieba 結巴中文分詞程式
https://coderwall.com/p/38wtgw/jieba

以 jieba 與 gensim 探索文本主題:五月天人生無限公司歌詞分析 ( I )
https://medium.com/pyladies-taiwan/cd2147b89083

以 jieba 與 gensim 探索文本主題:五月天人生無限公司歌詞分析 ( II)
https://medium.com/pyladies-taiwan/fdf5d3708662

Python自然語言處理分析倚天屠龍記
https://mp.weixin.qq.com/s/gcx2iYSwJzUU73sVbcasdg

自然語言處理的其中一個重要環節就是中文斷詞的處理,而結巴(jieba)為非常知名的中文分詞套件,它支持繁體分詞與自訂字典,並支援以下三種分詞模式:
1.精確模式,試圖將句子最精確地切開,適合文本分析
2.全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義
3.搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞


#Jieba, 中文斷詞

留言