close
Jieba 中文斷詞
Jieba是一套詞典式斷詞法,由於官網都是分享 source code,除非自己下載包成jar,不然的話可以到下列的網址去下載jar:
http://grepcode.com/snapshot/repo1.maven.org/maven2/com.huaban/jieba-analysis/1.0.2
之後將jieba-analysis-1.0.2.jar import到自己的project中,並且使用下列的Sample code即可使用:
出來的結果就是每個的斷詞,與該斷詞所處的位置。
main dict load finished, time elapsed 3571 ms model load finished, time elapsed 245 ms. ===SegMode.INDEX=== [[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]] ===SegMode.SEARCH=== [[星際大戰, 0, 4], [很, 4, 5], [好看, 5, 7]] ===沒有index的斷詞結果=== 星際大戰 很 好看 |
INDEX模式代表除了斷長詞,還是會將長詞中的2~3字詞繼續斷下去,然後找出最佳路徑並且回傳最佳的斷詞結果。其中, SEARCH模式代表只斷長詞,不再做細部斷詞的處理。
[Reference]
http://freydom.com/2016/05/30/JiebaAnalysis/
全站熱搜
留言列表