close

undefined

以下記錄在Python中使用結巴中文斷詞的方法:

步驟一、安裝結巴斷詞

jieba_1.jpg

 

安裝完成畫面

jieba_2.jpg

 

步驟二、打開Python IDE (我的是 PyCharm),並且使用下列的程式碼進行斷詞:

 

 

其中注意到有三種模式:

全模式: 將句子中所有可以成詞的詞都掃描出來,但是不能解決歧義。

精確模式: 將鋸子最精確地分開,適合文本分析

搜尋引擎模式: 在精確模式基礎上,對長詞繼續細分,提高 Recall,適合搜尋引擎斷詞

 

 

其執行結果如下:

Building prefix dict from the default dictionary ...

Loading model from cache C:\Users\ken_chen\AppData\Local\Temp\jieba.cache

Loading model cost 1.681 seconds.

Prefix dict has been built succesfully.

全模式:

今天

天台

台北

 

精確模式:

今天

台北

天氣

不錯

 

默認是精確模式:

今天

台北

天氣

不錯

 

搜尋引擎模式:

今天

台北

天氣

不錯

 

 

[Reference]

1. https://github.com/isuhao/jieba

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 葛瑞斯肯 的頭像
    葛瑞斯肯

    葛瑞斯肯樂活筆記

    葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()