“碼庫思”的版本间的差异
Hueilanxiong(讨论 | 贡献) |
Hueilanxiong(讨论 | 贡献) |
||
(未显示同一用户的4个中间版本) | |||
第1行: | 第1行: | ||
{{stub}} | {{stub}} | ||
− | 碼庫思 (MARKUS) | + | 碼庫思(MARKUS)為文本標記與分析線上平台,功能多元,包括: |
− | 1.自動識別與標記 | + | 1.自動識別與標記文本所含 中國古代 人名、地名、官職名與時代資訊。 |
2.可自訂標記,並手動標記自訂的多種語言關鍵詞。 | 2.可自訂標記,並手動標記自訂的多種語言關鍵詞。 | ||
第15行: | 第15行: | ||
6.提供HTML、TEI等多樣檔案輸出格式,可確保標記成果與其他數位工具或平台相容。 | 6.提供HTML、TEI等多樣檔案輸出格式,可確保標記成果與其他數位工具或平台相容。 | ||
− | 7.標記成果可連結中國人物傳記資料庫或TGAZ、TWGIS等地理資訊資料庫 | + | 7.標記成果可連結中國人物傳記資料庫或TGAZ、TWGIS等地理資訊資料庫 ,將 相關資訊合併匯入視覺化平台VISUS,以地圖、網絡圖像、表格、時間軸、圓餅圖、文字雲等工具 以 探索文本。 |
8.可藉外掛程式(plugin)由其他資料庫匯入各式文本。如內建Ctext Plugin,可自Donald Sturgeon「[https://ctext.org/zh 中國哲學書電子化計劃(Chinese Text Project)]」便捷匯入文本。 | 8.可藉外掛程式(plugin)由其他資料庫匯入各式文本。如內建Ctext Plugin,可自Donald Sturgeon「[https://ctext.org/zh 中國哲學書電子化計劃(Chinese Text Project)]」便捷匯入文本。 | ||
− | 9.提供機器學習(machine learning)模組,提升大規模文本標記的 | + | 9.提供機器學習(machine learning)模組,提升大規模文本標記的準 確 率(precision)與召回率(recall)。 |
− | 10.自由註冊使用帳號,以彈性管理文本檔案,包括:利用關鍵詞或正規表達式批次標記多項文本;或將標記成果匯出至不同文本分析與視覺化平台,如[http://hdlab.stanford.edu/palladio/ PALLADIO], [http://platin.mpiwg-berlin.mpg.de/ PLATIN], [http://docusky.digital.ntu.edu.tw/DocuSky/ds-01.home.html DOCUSKY], 與 COMPARATIVUS等。 | + | 10.自由註冊使用帳號,以彈性管理文本檔案,包括:利用關鍵詞或正規表達式批次標記多項文本;或將標記成果匯出至不同文本分析與視覺化平台,如[http://hdlab.stanford.edu/palladio/ PALLADIO], [http://platin.mpiwg-berlin.mpg.de/ PLATIN], [http://docusky.digital.ntu.edu.tw/DocuSky/ds-01.home.html DOCUSKY], 與 [https://dh.chinese-empires.eu/comparativus/ COMPARATIVUS] 等。 |
− | + | 碼庫思提供上述功能中英文使用教學影片與說明手冊,並設有交流論壇,供使用者分享、討論使用案例與操作經驗。開發文件(documentation)詳 見[https://github.com/dHumanities/markus Github]. | |
− | 碼庫思提供上述功能中英文使用教學影片與說明手冊,並設有交流論壇,供使用者分享、討論使用案例與操作經驗。開發文件(documentation)詳 | ||
碼庫思由何浩洋與魏希德共同開發,獲歐洲研究委員會(European Research Council)和「數據挖掘挑戰」計畫(Digging into Data)資助。「詞夾子」功能由臺灣大學項潔、杜協昌等提供;機器學習模組由苗聖法開發。 | 碼庫思由何浩洋與魏希德共同開發,獲歐洲研究委員會(European Research Council)和「數據挖掘挑戰」計畫(Digging into Data)資助。「詞夾子」功能由臺灣大學項潔、杜協昌等提供;機器學習模組由苗聖法開發。 | ||
以直接輸出到碼庫思系統去處理。 | 以直接輸出到碼庫思系統去處理。 | ||
+ | |||
==外部鏈接== | ==外部鏈接== |
2018年7月2日 (一) 08:39的最新版本
这是一篇小作品。你可以通过编辑或修订扩充其内容。 |
碼庫思(MARKUS)為文本標記與分析線上平台,功能多元,包括:
1.自動識別與標記文本所含中國古代人名、地名、官職名與時代資訊。
2.可自訂標記,並手動標記自訂的多種語言關鍵詞。
3.以文本分析工具「詞夾子(keyword clipper)」自動生成關鍵詞。
4.可彈性篩選所標記資訊
5.提供多種類線上參考資源協助文本解讀,包括地理資訊、人物傳記資料,以及語言性與專門領域性辭典等。
6.提供HTML、TEI等多樣檔案輸出格式,可確保標記成果與其他數位工具或平台相容。
7.標記成果可連結中國人物傳記資料庫或TGAZ、TWGIS等地理資訊資料庫,將相關資訊合併匯入視覺化平台VISUS,以地圖、網絡圖像、表格、時間軸、圓餅圖、文字雲等工具以探索文本。
8.可藉外掛程式(plugin)由其他資料庫匯入各式文本。如內建Ctext Plugin,可自Donald Sturgeon「中國哲學書電子化計劃(Chinese Text Project)」便捷匯入文本。
9.提供機器學習(machine learning)模組,提升大規模文本標記的準確率(precision)與召回率(recall)。
10.自由註冊使用帳號,以彈性管理文本檔案,包括:利用關鍵詞或正規表達式批次標記多項文本;或將標記成果匯出至不同文本分析與視覺化平台,如PALLADIO, PLATIN, DOCUSKY, 與 COMPARATIVUS等。
碼庫思提供上述功能中英文使用教學影片與說明手冊,並設有交流論壇,供使用者分享、討論使用案例與操作經驗。開發文件(documentation)詳見Github.
碼庫思由何浩洋與魏希德共同開發,獲歐洲研究委員會(European Research Council)和「數據挖掘挑戰」計畫(Digging into Data)資助。「詞夾子」功能由臺灣大學項潔、杜協昌等提供;機器學習模組由苗聖法開發。 以直接輸出到碼庫思系統去處理。