此站中有介紹如何使用Java視窗介面來操作 Tregex,接下來要介紹的是直接使用 Java 程式來操作 Tregex,相信對於偏愛自動化的使用者有莫大的助益。
使用前要先抓取 Tregex 的 jar,先到下列網站:
此站中有介紹如何使用Java視窗介面來操作 Tregex,接下來要介紹的是直接使用 Java 程式來操作 Tregex,相信對於偏愛自動化的使用者有莫大的助益。
使用前要先抓取 Tregex 的 jar,先到下列網站:
Tregex是一套用來觀察 stanford parsing tree結果,並且自建 tree regular expression來符合pattern的工具。
Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。
以下羅列英文的 Stop wrods:
FrameNet project始於1997年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000個詞的意涵(word sense),並且都有例句來介紹這些意涵與使用方式。裡面也包含了20萬個例句,每個例句都有對應到語意框架(Semantic Frame),讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)的研究。這些資料也可用於資訊萃取(Information Extraction)、機器翻譯(Machine Translation)、事件辨識(Event Recognition)與情緒分析(Sentiment Analysis)。
使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:
http://verbs.colorado.edu/verbnet_downloads/downloads.html
Apache Jena 是一套用來建構語意網(Semantic Web)與連結性資料的Java應用程式。它可以用來處理RDF (Resource Description Framework, 資源描述框架)資料,執行SPARQL還有處理OWL(Ontology Web Language, 本體論網路語言)。
JWI 是 MIT 開發用來操作 WordNet 的介面,它的官網如下:
我想應該是這個星期一吧,人還在北護圖書館準備 paper 報告的我,突然有個強烈的念頭,就是想在部落格寫下各種 NLP Tool 的使用方法。
一直以來,在 Information Retrieval (IR) 領域中,常常會涉及到 Natural Language Processing (NLP) 的工具使用,畢竟一個是前處理,一個是後處理。