[Natural Language Processing][Java] 使用java進行Jieba中文斷詞－葛瑞斯肯樂活筆記

Jieba 中文斷詞

Jieba是一套詞典式斷詞法，由於官網都是分享 source code，除非自己下載包成jar，不然的話可以到下列的網址去下載jar:

http://grepcode.com/snapshot/repo1.maven.org/maven2/com.huaban/jieba-analysis/1.0.2

之後將jieba-analysis-1.0.2.jar import到自己的project中，並且使用下列的Sample code即可使用:

出來的結果就是每個的斷詞，與該斷詞所處的位置。

main dict load finished, time elapsed 3571 ms
model load finished, time elapsed 245 ms.
===SegMode.INDEX===
[[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]]
===SegMode.SEARCH===
[[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]]
===沒有index的斷詞結果===
星際大戰
很
好看

INDEX模式代表除了斷長詞，還是會將長詞中的2~3字詞繼續斷下去，然後找出最佳路徑並且回傳最佳的斷詞結果。其中, SEARCH模式代表只斷長詞，不再做細部斷詞的處理。

[Reference]

http://freydom.com/2016/05/30/JiebaAnalysis/