葛瑞斯肯相關資訊
聯絡我 : x831617@gmail.com
臉書粉專 : 葛瑞斯肯樂活筆記

undefined

Tregex是一套用來觀察 stanford parsing tree結果,並且自建 tree regular expression來符合pattern的工具。

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

undefined

今天用到一個功能,就是每次新增資料的時候就檢查資料庫是否存在,不存在就把這個資料表建立出來,程式碼如下:

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

IMG_3242.JPG

===封面照片: 蘆洲九川堂店面照片===

文章標籤

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

Jieba 中文斷詞

 

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

MMSeg是由Chih-Hao Tsai所開發,裡面包含了兩種類型的長詞優先斷詞演算法(Maximum Matching Algorithm)。其官網如下:

http://technology.chtsai.org/mmseg/

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

undefined

介紹

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。

以下羅列英文的 Stop wrods:

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

sentiWordnet_1.jpg

 

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

如何下載FrameNet資料

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

frameNet_1.jpg

FrameNet project始於1997年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000個詞的意涵(word sense),並且都有例句來介紹這些意涵與使用方式。裡面也包含了20萬個例句,每個例句都有對應到語意框架(Semantic Frame),讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)的研究。這些資料也可用於資訊萃取(Information Extraction)、機器翻譯(Machine Translation)、事件辨識(Event Recognition)與情緒分析(Sentiment Analysis)

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

WordNet介紹

wordNet_1.jpg

文章標籤

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:

http://verbs.colorado.edu/verbnet_downloads/downloads.html

葛瑞斯肯 發表在 痞客邦 留言(1) 人氣()

verbNet_1.jpg

VerbNet介紹

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

BabelNet.JPG

此文章用來彙整所有此部落格中有關文字探勘可使用資源的介紹與教學,資源會以 BabelNet 所提供的列表進行分類並且擴增,如是非英文或中文的語言,並不會出現在下述列表:

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()

undefined

Machine Learning 已發展半世紀之久,下述紀錄大師對於Machine Learning 的定義:

文章標籤

葛瑞斯肯 發表在 痞客邦 留言(0) 人氣()