小詠樂活筆記

目前分類:Text Mining 學習筆記 (17)

瀏覽方式: 標題列表 簡短摘要

此站中有介紹如何使用Java視窗介面來操作 Tregex,接下來要介紹的是直接使用 Java 程式來操作 Tregex,相信對於偏愛自動化的使用者有莫大的助益。

使用前要先抓取 Tregex 的 jar,先到下列網站:

陳小詠 發表在 痞客邦 留言(0) 人氣()

undefined

Tregex是一套用來觀察 stanford parsing tree結果,並且自建 tree regular expression來符合pattern的工具。

陳小詠 發表在 痞客邦 留言(0) 人氣()

Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。

以下羅列英文的 Stop wrods:

陳小詠 發表在 痞客邦 留言(0) 人氣()

sentiWordnet_1.jpg

 

陳小詠 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

如何下載FrameNet資料

陳小詠 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

FrameNet project始於1997年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000個詞的意涵(word sense),並且都有例句來介紹這些意涵與使用方式。裡面也包含了20萬個例句,每個例句都有對應到語意框架(Semantic Frame),讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)的研究。這些資料也可用於資訊萃取(Information Extraction)、機器翻譯(Machine Translation)、事件辨識(Event Recognition)與情緒分析(Sentiment Analysis)

陳小詠 發表在 痞客邦 留言(0) 人氣()

WordNet介紹

wordNet_1.jpg

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:

http://verbs.colorado.edu/verbnet_downloads/downloads.html

陳小詠 發表在 痞客邦 留言(1) 人氣()

verbNet_1.jpg

VerbNet介紹

陳小詠 發表在 痞客邦 留言(0) 人氣()

BabelNet.JPG

此文章用來彙整所有此部落格中有關文字探勘可使用資源的介紹與教學,資源會以 BabelNet 所提供的列表進行分類並且擴增,如是非英文或中文的語言,並不會出現在下述列表:

陳小詠 發表在 痞客邦 留言(0) 人氣()

1.jpg

Apache Jena 是一套用來建構語意網(Semantic Web)與連結性資料的Java應用程式。它可以用來處理RDF (Resource Description Framework, 資源描述框架)資料,執行SPARQL還有處理OWL(Ontology Web Language, 本體論網路語言)

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

dbpediaLogo.JPG

DBpedia是一項從維基百科萃取內容的專案計畫,其內容均屬公開,下面開始介紹如何使用Java直接存取DBpeida內容。

陳小詠 發表在 痞客邦 留言(0) 人氣()

JWI 是 MIT 開發用來操作 WordNet 的介面,它的官網如下:

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

資訊檢索中,在進行文字處理時,我們常會進行以下的步驟:

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

在Information Retrieval領域,有時候需要計算字與字之間的關聯性,通常我們會使用PMI、Chi-square、Log-likelihood等方法來計算。

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

*如何使用 Opinion Finder 2.0

一開始請先到 http://mpqa.cs.pitt.edu/opinionfinder/opinionfinder_2/ 抓取 opinion finder 2.0

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()

我想應該是這個星期一吧,人還在北護圖書館準備 paper 報告的我,突然有個強烈的念頭,就是想在部落格寫下各種 NLP Tool 的使用方法。

一直以來,在 Information Retrieval (IR) 領域中,常常會涉及到 Natural Language Processing (NLP) 的工具使用,畢竟一個是前處理,一個是後處理。

文章標籤

陳小詠 發表在 痞客邦 留言(0) 人氣()