码库思
这是一篇小作品。你可以通过编辑或修订扩充其内容。 |
码库思(MARKUS)为文本标记与分析线上平台,功能多元,包括:
1.自动识别与标记汉文古籍文本所含人名、地名、官职名与时代资讯。
2.可自订标记,并手动标记自订的多种语言关键词。
3.以文本分析工具“词夹子(keyword clipper)”自动生成关键词。
4.可弹性筛选所标记资讯
5.提供多种类线上参考资源协助文本解读,包括地理资讯、人物传记资料,以及语言性与专门领域性辞典等。
6.提供HTML、TEI等多样档案输出格式,可确保标记成果与其他数位工具或平台相容。
7.标记成果可连结中国人物传记数据库或TGAZ、TWGIS等地理资讯数据库之相关资讯,合并汇入资料视觉化平台VISUS,以地图、网络图像、表格、时间轴、圆饼图、文字云等工具探索文本内容。
8.可藉插件(plugin)由其他数据库汇入各式文本。如内建Ctext Plugin,可自Donald Sturgeon“中国哲学书电子化计划(Chinese Text Project)”便捷汇入文本。
9.提供机器学习(machine learning)模组,提升大规模文本标记的准确率(precision)与召回率(recall)。
10.自由注册使用账号,以弹性管理文本档案,包括:利用关键词或正规表达式批次标记多项文本;或将标记成果汇出至不同文本分析与视觉化平台,如PALLADIO, PLATIN, DOCUSKY, 与 COMPARATIVUS等。
码库思提供上述功能中英文使用教学影片与说明手册,并设有交流论坛,供使用者分享、讨论使用案例与操作经验。开发文件(documentation)详见Github.
码库思由何浩洋与魏希德共同开发,获欧洲研究委员会(European Research Council)和“数据挖掘挑战”计划(Digging into Data)资助。“词夹子”功能由台湾大学项洁、杜协昌等提供;机器学习模组由苗圣法开发。 以直接输出到码库思系统去处理。