close
以下記錄在Python中使用結巴中文斷詞的方法:
步驟一、安裝結巴斷詞
安裝完成畫面
步驟二、打開Python IDE (我的是 PyCharm),並且使用下列的程式碼進行斷詞:
其中注意到有三種模式:
全模式: 將句子中所有可以成詞的詞都掃描出來,但是不能解決歧義。
精確模式: 將鋸子最精確地分開,適合文本分析
搜尋引擎模式: 在精確模式基礎上,對長詞繼續細分,提高 Recall,適合搜尋引擎斷詞
其執行結果如下:
Building prefix dict from the default dictionary ... Loading model from cache C:\Users\ken_chen\AppData\Local\Temp\jieba.cache Loading model cost 1.681 seconds. Prefix dict has been built succesfully. 全模式: 今天 天台 台北 的 天 氣 不 錯
精確模式: 今天 台北 的 天氣 不錯
默認是精確模式: 今天 台北 的 天氣 不錯
搜尋引擎模式: 今天 台北 的 天氣 不錯 |
[Reference]
1. https://github.com/isuhao/jieba
全站熱搜
留言列表