小詠樂活筆記

目前分類:Text Mining 學習筆記 (26)

瀏覽方式: 標題列表 簡短摘要

此站中有介紹如何使用Java視窗介面來操作 Tregex,接下來要介紹的是直接使用 Java 程式來操作 Tregex,相信對於偏愛自動化的使用者有莫大的助益。

使用前要先抓取 Tregex 的 jar,先到下列網站:

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

Tregex是一套用來觀察 stanford parsing tree結果,並且自建 tree regular expression來符合pattern的工具。

陳小詠 發表在 痞客邦 留言(0) 人氣()

Jieba 中文斷詞

 

陳小詠 發表在 痞客邦 留言(0) 人氣()

MMSeg是由Chih-Hao Tsai所開發,裡面包含了兩種類型的長詞優先斷詞演算法(Maximum Matching Algorithm)。其官網如下:

http://technology.chtsai.org/mmseg/

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

介紹

陳小詠 發表在 痞客邦 留言(0) 人氣()

Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。

以下羅列英文的 Stop wrods:

陳小詠 發表在 痞客邦 留言(0) 人氣()

sentiWordnet_1.jpg

 

陳小詠 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

如何下載FrameNet資料

陳小詠 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

FrameNet project始於1997年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000個詞的意涵(word sense),並且都有例句來介紹這些意涵與使用方式。裡面也包含了20萬個例句,每個例句都有對應到語意框架(Semantic Frame),讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)的研究。這些資料也可用於資訊萃取(Information Extraction)、機器翻譯(Machine Translation)、事件辨識(Event Recognition)與情緒分析(Sentiment Analysis)

陳小詠 發表在 痞客邦 留言(0) 人氣()

WordNet介紹

wordNet_1.jpg

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:

http://verbs.colorado.edu/verbnet_downloads/downloads.html

陳小詠 發表在 痞客邦 留言(1) 人氣()

verbNet_1.jpg

VerbNet介紹

陳小詠 發表在 痞客邦 留言(0) 人氣()

BabelNet.JPG

此文章用來彙整所有此部落格中有關文字探勘可使用資源的介紹與教學,資源會以 BabelNet 所提供的列表進行分類並且擴增,如是非英文或中文的語言,並不會出現在下述列表:

陳小詠 發表在 痞客邦 留言(0) 人氣()

1.jpg

Apache Jena 是一套用來建構語意網(Semantic Web)與連結性資料的Java應用程式。它可以用來處理RDF (Resource Description Framework, 資源描述框架)資料,執行SPARQL還有處理OWL(Ontology Web Language, 本體論網路語言)

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

dbpediaLogo.JPG

DBpedia是一項從維基百科萃取內容的專案計畫,其內容均屬公開,下面開始介紹如何使用Java直接存取DBpeida內容。

陳小詠 發表在 痞客邦 留言(0) 人氣()

1.jpg

ConceptNetMIT(美國麻省理工學院)的一個計畫,它是一個語意網路,包含了各種事物之間的關聯性。

陳小詠 發表在 痞客邦 留言(0) 人氣()

使用 Stanford 中文斷詞系統,首先,請到下列的網址:

http://nlp.stanford.edu/software/segmenter.html#Download

文章標籤

陳小詠 發表在 痞客邦 留言(1) 人氣()

1.jpg

Stanford jar 檔的安裝方式請參閱:

陳小詠 發表在 痞客邦 留言(0) 人氣()

3.jpg

Step 1: 請到下列的網址

陳小詠 發表在 痞客邦 留言(0) 人氣()

進行文字處理的時候,有時候是需要每個詞彙的詞性(Part-of-speech,POS),這時候就可以應用Stanford POS tagger。

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

1 2