Tregex是一套用來觀察 stanford parsing tree結果,並且自建 tree regular expression來符合pattern的工具。
葛瑞斯肯相關資訊
- Jun 06 Tue 2017 10:16
[Text Mining] Stanford Tregex使用教學
- May 25 Thu 2017 09:03
[Java2SQLite]檢查資料庫是否存在
今天用到一個功能,就是每次新增資料的時候就檢查資料庫是否存在,不存在就把這個資料表建立出來,程式碼如下:
- May 23 Tue 2017 08:23
[新北][蘆洲] (已歇業)九川堂火鍋 ~蘆洲站1號出口正對面~
- May 07 Sun 2017 16:24
[Natural Language Processing][Java] 使用java進行Jieba中文斷詞
- May 05 Fri 2017 15:40
[Natural Language Processing][Segmenter] MMSeg 中文斷詞教學
MMSeg是由Chih-Hao Tsai所開發,裡面包含了兩種類型的長詞優先斷詞演算法(Maximum Matching Algorithm)。其官網如下:
- May 03 Wed 2017 09:54
[Natural Language Processing][Segmenter] IKAnalyzer中文斷詞系統
介紹
- Apr 24 Mon 2017 21:55
[Text Mining][Resource] English Stop words / 中文 Stop words
Stop Words (停用詞)指的是語言中最常用的詞彙,在建立 Language Model 或是其他 Statistical Machine Learning時常會把 Stop Words 濾掉,因為這些詞彙通常沒有鑑別力。
以下羅列英文的 Stop wrods:
- Apr 14 Fri 2017 10:23
[Text Mining][SentiWordNet] SentiWordNet 介紹與Java使用教學
- Apr 14 Fri 2017 10:21
[Text Mining][FrameNet] FrameNet 資料下載
- Apr 14 Fri 2017 10:11
[Text Mining][FrameNet] FrameNet 介紹
FrameNet project始於1997年柏克萊大學的計畫,它的目的是建立一個人類與機器都可閱讀的英文詞庫,這個詞庫包含了超過13,000個詞的意涵(word sense),並且都有例句來介紹這些意涵與使用方式。裡面也包含了20萬個例句,每個例句都有對應到語意框架(Semantic Frame),讓讀者可使用這些資訊來進行統計式的機器學習,用以針對語意角色標註(Semantic Role Labeling)的研究。這些資料也可用於資訊萃取(Information Extraction)、機器翻譯(Machine Translation)、事件辨識(Event Recognition)與情緒分析(Sentiment Analysis)。
- Apr 06 Thu 2017 09:21
[Text Mining][WordNet] WordNet 介紹
- Apr 04 Tue 2017 16:18
[Text Mining][VerbNet] VerbNet Java使用教學
使用 Java API 存取 VerbNet 之前,要先安裝 VerbNet:
http://verbs.colorado.edu/verbnet_downloads/downloads.html
- Apr 04 Tue 2017 16:13
[Text Mining][VerbNet] VerbNet 介紹
- Apr 04 Tue 2017 16:01
[Text Mining][Resource]文字探勘資源總整理
- Mar 22 Wed 2017 09:38
[Machine Learning] Machine Learning 定義 (Definition)
Machine Learning 已發展半世紀之久,下述紀錄大師對於Machine Learning 的定義: