小詠樂活筆記

目前分類:Natural Language Processing 學習筆記 (11)

瀏覽方式: 標題列表 簡短摘要

1986年,Michael Lesk 設計出一個簡單的演算法,基本的概念為給定一個詞彙,其周圍的詞彙會傾向於在說明同一個主題,或者說它們分享著相似的概念[1],除了原始的paper外,還可以在wikipedia找到 Lesk 演算法的說明[2]。

接著,我實作了原始 paper 中的演算法[1],wikipedia上的版本[2]跟原始 paper 有著部份的出入,下方我會開始解釋實作的程式碼:

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

在此特別紀錄賓州大學的中英文詞性列表,以方便查詢,上圖是英文的詞性列表 (POS tagset),說明如下:

陳小詠 發表在 痞客邦 留言(0) 人氣()

Jieba 中文斷詞

 

陳小詠 發表在 痞客邦 留言(0) 人氣()

MMSeg是由Chih-Hao Tsai所開發,裡面包含了兩種類型的長詞優先斷詞演算法(Maximum Matching Algorithm)。其官網如下:

http://technology.chtsai.org/mmseg/

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

介紹

陳小詠 發表在 痞客邦 留言(0) 人氣()

1.jpg

ConceptNetMIT(美國麻省理工學院)的一個計畫,它是一個語意網路,包含了各種事物之間的關聯性。

陳小詠 發表在 痞客邦 留言(0) 人氣()

使用 Stanford 中文斷詞系統,首先,請到下列的網址:

http://nlp.stanford.edu/software/segmenter.html#Download

文章標籤

陳小詠 發表在 痞客邦 留言(1) 人氣()

1.jpg

Stanford jar 檔的安裝方式請參閱:

陳小詠 發表在 痞客邦 留言(0) 人氣()

3.jpg

Step 1: 請到下列的網址

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

進行文字處理的時候,有時候是需要每個詞彙的詞性(Part-of-speech,POS),這時候就可以應用Stanford POS tagger。

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

Stanford Named Entity Recognizer (NER) 視窗版使用方式

先到下列網址:

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()