中国哲学书电子化计划
中国哲学书电子化计划 (CTP) 是个开源的线上电子图书馆计划,提供转录、阅读和搜索中国经典和古籍的多项功能。它的宗旨在于提供容易获取并准确的文本版本[1],尤其和中国哲学相关的文本。这个网站被誉为网络上最大和准确度最高的中国古典文献库,[2][3]也被评为用以研究中国上古文献的最有用文本库之一。
这个网站以多种功能的整合,以及API等外部工具为基础,让用户得以对古代文献进行各种数位分析。借助CTP API和网站的插件系统,中国哲学书电子化计划和其他数位计划是互通的,例如Text Tools、TextRef和MARKUS。
网站内容
这个网站的基本内容包括中国古籍的经过点校和抄本的电子版,也包括基于这些版本而生成的电子文字版。图版和录文这两种内容是互为关联的。包含这两种元素的图文对照界面使得用户可以在检阅文字版的同时,参考文字来源的图录,并以此有效地进行校对和抄录工作。图文对照的界面也允许众包用户对文字进行修订和加上注释,例如是修正OCR生成的文字版,或对白文加上标点。
网站上的文献分为先秦两汉以及汉代之后的文本。前者以诸子百家来划分,后者则以朝代来分类。先秦两汉部分有超过5百万字文献,而汉代之后部分则有超过2000万字文献。可供用户自由编辑修订的维基部分有超过5亿字的规模。[4] 许多文献还附上英文和现代汉语译文,并跟原文逐段或逐句配对显示,便于用户比对。这加强了这个网站的学术价值,不精通或完全不懂中文的用户也可以加以利用。[5] 许多文献在这个网站上都有多种版本,其录文是根据不同的具体的版本,系统会一一记录。
除了提供适用于中国文献的高阶搜索功能[6][7] ,网站还提供多项为专家设计的功能,包括多功能辞典、词汇列表、互文信息[8]、文本来源的图录、字词索引及相关信息[9]、元数据、注释信息的显示[10]、罗列公开数位资源的数据库,以及可连接到本网站任何一条数据的论坛。[11][12] 中国哲学书电子化计划的“图书馆”包含超过2500万页的中国古籍扫描图版,[13][14]并且跟全文库逐行关联。这其中有许多是OCR生成的,[15]并可通过一个线上、众包的维基系统编辑和维护。[16][17]这些文本数据和元数据可以通过API输出,所以可以跟其他线上工具连接,也方便用于文本挖掘和数位人文计划。[16][18]
功能
系统内嵌了不少功能,而且通过插件和API还可以加入更多功能。基本工具包括辞典功能,提供来自本系统的关于某字词的信息,例如是辞典中所记录的出处引文、各种文献记载的音韵信息、字词过去的用法,以及翻译(如果有的话)等。辞典也支持以Unicode以外的语言来搜索。
利用为了这个网站特别设计的OCR,这个系统大幅减低了古籍录文的错误率,提供了大量过去没有的古籍版本之文字。[19] 这些以OCR生成的录文让用户得以对古籍的图像版进行搜索,其中包括哈佛燕京图书馆中文善本特藏数码化计划的内容和其他大学图书馆的提供的馆藏内容。这个网站的用户可以集体对录文进行修订,纠正其中错误,也可以对文字加上标点和注释。
除了提供跟外部工具和其他计划的整合机制,中国哲学书电子化计划的CTP API and plugin system还提供了强大的工鞥呢,使得其中的文本数据可用于文本挖掘研究和数位人文教学。这些外部工具包括Text Tools,实现以下功能:浏览器中的字词统计、互文分析、文本相似度分析,以及对系统上文本的其他面向之互动可视化。网站还提供一个Python工具包,提供更专门的数据挖掘操作,并和API相关联。
参考文献
- ↑ Elman, Benjamin A. Classical Historiography for Chinese History: Databases & electronic texts. Princeton University. [June 3, 2016].
- ↑ Association of Chinese Philosophers in North America (北美中国哲学学者协会)
- ↑ Chris Fraser, Department of Philosophy, University of Hong Kong
- ↑ http://ctext.org/system-statistics
- ↑ Connolly, Tim. Learning Chinese Philosophy with Commentaries. Teaching Philosophy (Philosophy Documentation Center). 2012, 35 (1): 1–18 [March 19, 2017].
- ↑ http://ctext.org/instructions/advanced-search
- ↑ http://ctext.org/faq/normalization
- ↑ Sturgeon, Donald. Unsupervised identification of text reuse in early Chinese literature. Digital Scholarship in the Humanities (Oxford University Press). 2017 [November 21, 2017].
- ↑ Xu, Jiajin. Corpus-based Chinese studies: A historical review from the 1920s to the present. Chinese Language & Discourse (John Benjamins Publishing Company). 2015, 6 (2): 218–244 [June 3, 2016].
- ↑ Adkins, Martha A. Web Review: Online Resources for the Study of Chinese Religion and Philosophy. Theological Librarianship (American Theological Library Association). 2016, 9 (2): 5–8 [November 7, 2016].
- ↑ Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213
- ↑ http://ctext.org/introduction
- ↑ http://ctext.org/library.pl?if=en
- ↑ http://ctext.org/system-statistics
- ↑ Template:Cite conference
- ↑ 16.0 16.1 https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham
- ↑ http://ctext.org/instructions/ocr
- ↑ http://ctext.org/tools/api
- ↑ Template:Cite conference