我想應該是這個星期一吧,人還在北護圖書館準備 paper 報告的我,突然有個強烈的念頭,就是想在部落格寫下各種 NLP Tool 的使用方法。

一直以來,在 Information Retrieval (IR) 領域中,常常會涉及到 Natural Language Processing (NLP) 的工具使用,畢竟一個是前處理,一個是後處理。

而做 IR 領域的我,自然躲不掉使用 NLP Tool,NLP Tool 包羅萬象,從現在開始,我先介紹我最近讀 paper,讀到的一些 Tool。

首先,先來介紹 GATE。

GATE (General Architecture for Text Engineering) 是一個很大的系統,包含了各種各樣的 NLP 處理,GATE的起源來自 EPSRC 其中一部分,稱為 Large Scale Information Extraction,GATE 建立自 1995年1月開始。

在此,我單純介紹 GATE 龐大系統中的 ANNIE:

ANNIE 是一個資訊萃取系統 (Information Extraction System)

ANNIE使用方法:

1. 下載

進入http://gate.ac.uk => 點擊 網頁上方的 Download

1.JPG  

 

選到下圖的這個檔案,並且下載。

2.JPG  

解壓縮剛剛下載的資料夾,打開,並且點擊 gate.exe

3.JPG    

2. 建立萃取 named entity 的 Application.

打開後,開始開啟 ANNIE

4.JPG  

 

建立 ANNIE 應用程式

5.JPG  

會看到下圖的畫面,這時候選擇想要使用的應用

6.JPG  

3. 讀取 document

之後我們來讀取想要進行分析的 document,在"Language Resources"上點擊滑鼠右鍵

7.JPG   

 

然後會出現下面這個畫面,這裡我讀取的是我自己的 1.txt

8.JPG  

 

選好後,會出現下圖的畫面。

9.JPG  

 

之後點擊之前選好的 Tool ,下方會有一個讓你選擇 document 來源,點開就可以看到剛剛新增的檔案名稱。

選好後就點擊最下方的 "Run this Application"

10.JPG

4. 觀看分析結果

點擊左方欄位的檔名會出現下圖,這時再選"Application Sets",右邊就會有一個 Lookup,點下去就可以看到結果了。

11.JPG    

如果想應用更多的功能,可以把 ANNIE 全用上(在此我們只用了一個),再來看看結果會如何。 

arrow
arrow

    葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()