1986年,Michael Lesk 設計出一個簡單的演算法,基本的概念為給定一個詞彙,其周圍的詞彙會傾向於在說明同一個主題,或者說它們分享著相似的概念[1],除了原始的paper外,還可以在wikipedia找到 Lesk 演算法的說明[2]。
接著,我實作了原始 paper 中的演算法[1],wikipedia上的版本[2]跟原始 paper 有著部份的出入,下方我會開始解釋實作的程式碼:
1986年,Michael Lesk 設計出一個簡單的演算法,基本的概念為給定一個詞彙,其周圍的詞彙會傾向於在說明同一個主題,或者說它們分享著相似的概念[1],除了原始的paper外,還可以在wikipedia找到 Lesk 演算法的說明[2]。
接著,我實作了原始 paper 中的演算法[1],wikipedia上的版本[2]跟原始 paper 有著部份的出入,下方我會開始解釋實作的程式碼:
以下記錄在Python中使用結巴中文斷詞的方法:
MMSeg是由Chih-Hao Tsai所開發,裡面包含了兩種類型的長詞優先斷詞演算法(Maximum Matching Algorithm)。其官網如下:
介紹