
此站中有介紹如何使用Java視窗介面來操作 Tregex,接下來要介紹的是直接使用 Java 程式來操作 Tregex,相信對於偏愛自動化的使用者有莫大的助益。
使用前要先抓取 Tregex 的 jar,先到下列網站:
葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(185)

Tregex
是一套用來觀察 stanford parsing tree
結果,並且自建 tree regular expression
來符合pattern
的工具。葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(261)
Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。
以下羅列英文的 Stop wrods:
葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(259)
SentiWordNet
是針對WordNet
中的每一個同義字(Synset)
給定正向、負向與非主觀的情緒分數所建立的英文詞庫。它的版本通常會根據WordNet
進行修改。葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(1,273)
如何下載FrameNet
資料葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(67)

FrameNet project
始於1997
年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000
個詞的意涵(word sense)
,並且都有例句來介紹這些意涵與使用方式。裡面也包含了20
萬個例句,每個例句都有對應到語意框架(Semantic Frame)
,讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)
的研究。這些資料也可用於資訊萃取(Information Extraction)
、機器翻譯(Machine Translation)
、事件辨識(Event Recognition)
與情緒分析(Sentiment Analysis)
。葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(446)
葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(576)

使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:
http://verbs.colorado.edu/verbnet_downloads/downloads.html
葛瑞斯肯 發表在 痞客邦 留言(1) 人氣(140)

VerbNet
介紹葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(249)

此文章用來彙整所有此部落格中有關文字探勘可使用資源的介紹與教學,資源會以
BabelNet 所提供的列表進行分類並且擴增,如是非英文或中文的語言,並不會出現在下述列表:
葛瑞斯肯 發表在 痞客邦 留言(0) 人氣(489)