Jieba 中文斷詞

 

Jieba是一套詞典式斷詞法,由於官網都是分享 source code,除非自己下載包成jar,不然的話可以到下列的網址去下載jar:

http://grepcode.com/snapshot/repo1.maven.org/maven2/com.huaban/jieba-analysis/1.0.2

jieba_1.jpg

之後將jieba-analysis-1.0.2.jar import到自己的project中,並且使用下列的Sample code即可使用:

 

 

出來的結果就是每個的斷詞,與該斷詞所處的位置。

main dict load finished, time elapsed 3571 ms
model load finished, time elapsed 245 ms.
===SegMode.INDEX===
[[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]]
===SegMode.SEARCH===
[[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]]
===沒有index的斷詞結果===
星際大戰

好看

INDEX模式代表除了斷長詞,還是會將長詞中的2~3字詞繼續斷下去,然後找出最佳路徑並且回傳最佳的斷詞結果。其中, SEARCH模式代表只斷長詞,不再做細部斷詞的處理。

 

[Reference]

http://freydom.com/2016/05/30/JiebaAnalysis/

arrow
arrow
    全站熱搜

    葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()