“碼庫思”的版本间的差异

来自Digital Sinology
跳转至: 导航搜索
第1行: 第1行:
 
{{stub}}
 
{{stub}}
  
 碼庫思 是個由何浩洋和魏希德開發的 線上 工具和 平台, 由歐洲研究委員會(ERC)和「數據挖掘挑戰」(Digging into Data) 它實現了對中國歷史 文本 中名 自動 和人工 標記,包括人 地名 、時間 信息和官名 思也為[[ 中國哲學書電子化計劃]] 提供 了一個插件 ,使 得這個網站 本可 以直接輸出到碼庫思系統去處理。
+
 碼庫思 (MARKUS) 為文本標記與分析 線上平台, 功能多元,包括:
 +
1. 自動識別與標記漢文古籍文本所含人名、地名、官職名與時代 訊。
 +
2. 可自訂標記,並手動標記自訂的多種語言關鍵詞
 +
3. 以 文本 分析工具「 夾子(keyword clipper)」 自動 生成關鍵詞。
 +
4. 可彈性篩選所 標記 資訊
 +
5. 提供多種類線上參考資源協助文本解讀 ,包括 地理資訊、人物傳記資料,以及語言性與專門領域性辭典等。
 +
6. 提供如HTML、TEI等多樣檔案輸出格式,可確保標記成果與其他數位工具或平台相容。
 +
7. 標記成果可連結中國 物傳記資料庫或TGAZ、TWGIS等地理資訊資料庫之相關資訊,合併匯入資料視覺化平台VISUS,以地圖、網絡圖像 表格 、時間 軸、圓餅圖、文字雲等工具探索文本內容
 +
8. 可藉外掛程式(plugin)由其他資料 匯入各式文本。如內建Ctext Plugin,可將Donald Sturgeon「 中國哲學書電子化計劃(Chinese Text Project)」收錄文本便捷匯入碼庫思平台。
 +
9. 提供 機器學習(machine learning)模組 提升大規模文本標記的查準率(precision)與召回率(recall)。
 +
10. 自由註冊 使 用帳號,以彈性管理文本檔案,包括:利用關鍵詞或正規表達式批次標記多項文本;或將標記成果匯出至不同文本分析與視覺化平台,如PALLADIO, PLATIN, DOCUSKY, 與 COMPARATIVUS等。
 +
 
 +
碼庫思提供 述功能中英文使用教學影片與說明手冊,並設有交流論壇,供使用者分享、討論使用案例與操作經驗。開發 件(documentation)詳見Github.
 +
碼庫思由何浩洋與魏希德共同開發,獲歐洲研究委員會(European Research Council)和「數據挖掘挑戰」計畫(Digging into Data)資助。「詞夾子」功能由臺灣大學項潔、杜協昌等提供;機器學習模組由苗聖法開發。
 +
以直接輸出到碼庫思系統去處理。
  
 
==外部鏈接==
 
==外部鏈接==

2018年7月2日 (一) 08:18的版本

碼庫思 (MARKUS) 為文本標記與分析線上平台,功能多元,包括: 1. 自動識別與標記漢文古籍文本所含人名、地名、官職名與時代資訊。 2. 可自訂標記,並手動標記自訂的多種語言關鍵詞。 3. 以文本分析工具「詞夾子(keyword clipper)」自動生成關鍵詞。 4. 可彈性篩選所標記資訊 5. 提供多種類線上參考資源協助文本解讀,包括地理資訊、人物傳記資料,以及語言性與專門領域性辭典等。 6. 提供如HTML、TEI等多樣檔案輸出格式,可確保標記成果與其他數位工具或平台相容。 7. 標記成果可連結中國人物傳記資料庫或TGAZ、TWGIS等地理資訊資料庫之相關資訊,合併匯入資料視覺化平台VISUS,以地圖、網絡圖像、表格、時間軸、圓餅圖、文字雲等工具探索文本內容。 8. 可藉外掛程式(plugin)由其他資料庫匯入各式文本。如內建Ctext Plugin,可將Donald Sturgeon「中國哲學書電子化計劃(Chinese Text Project)」收錄文本便捷匯入碼庫思平台。 9. 提供機器學習(machine learning)模組,提升大規模文本標記的查準率(precision)與召回率(recall)。 10. 自由註冊使用帳號,以彈性管理文本檔案,包括:利用關鍵詞或正規表達式批次標記多項文本;或將標記成果匯出至不同文本分析與視覺化平台,如PALLADIO, PLATIN, DOCUSKY, 與 COMPARATIVUS等。

碼庫思提供上述功能中英文使用教學影片與說明手冊,並設有交流論壇,供使用者分享、討論使用案例與操作經驗。開發文件(documentation)詳見Github. 碼庫思由何浩洋與魏希德共同開發,獲歐洲研究委員會(European Research Council)和「數據挖掘挑戰」計畫(Digging into Data)資助。「詞夾子」功能由臺灣大學項潔、杜協昌等提供;機器學習模組由苗聖法開發。 以直接輸出到碼庫思系統去處理。

外部鏈接