“中國哲學書電子化計劃”的版本间的差异
Tsui lincoln(讨论 | 贡献) |
Tsui lincoln(讨论 | 贡献) (→功能) |
||
第23行: | 第23行: | ||
[[File:Ctext-ocr.png|200px|thumb|right|Comparison of typical error rates on a page of pre-modern Chinese text]] | [[File:Ctext-ocr.png|200px|thumb|right|Comparison of typical error rates on a page of pre-modern Chinese text]] | ||
− | + | 利用為了這個網站特別設計的OCR,這個系統大幅減低了古籍錄文的錯誤率,提供了大量過去沒有的古籍版本之文字。<ref>{{cite conference | last = Sturgeon | first = Donald | date = 2017 | title = Unsupervised Extraction of Training Data for Pre-Modern Chinese OCR. | url = https://aaai.org/ocs/index.php/FLAIRS/FLAIRS17/paper/view/15490/15011 | conference = The Thirtieth International Flairs Conference | publisher = AAAI | access-date= November 21, 2017 }}</ref> 這些以OCR生成的錄文讓用戶得以對古籍的圖像版進行搜索,其中包括哈佛燕京圖書館中文善本特藏數碼化計劃的內容和其他大學圖書館的提供的館藏內容。這個網站的用戶可以集體對錄文進行修訂,糾正其中錯誤,也可以對文字加上標點和注釋。 | |
− | + | 除了提供跟外部工具和其他計劃的整合機制,中國哲學書電子化計劃的[https://ctext.org/tools/api CTP API] and [https://ctext.org/tools/plugins plugin system] 還提供了強大的工鞥呢,使得其中的文本數據可用於文本挖掘研究和數位人文教學。這些外部工具包括[[Text Tools]] ,使得一下功能變為可能:瀏覽器中的字詞統計、互文分析、文本相似度分析,以及對系統上文本的其他面向之互動可視化。網站還提供一個[https://pypi.org/project/ctext/ Python 工具包] ,提供更專門的數據挖掘操作,並和API相關聯。 | |
==參考文獻== | ==參考文獻== |
2018年6月6日 (三) 08:39的版本
中國哲學書電子化計劃 (CTP) 是個開源的線上電子圖書館計劃,提供轉錄、閱讀和搜索中國經典和古籍的多項功能。它的宗旨在於提供容易獲取並準確的文本版本[1],尤其和中國哲學相關的文本。這個網站被譽為網絡上最大和準確度最高的中國古典文獻庫,[2][3]也被評為用以研究中國上古文獻的最有用文本庫之一。
這個網站以多種功能的整合,以及API等外部工具為基礎,讓用戶得以對古代文獻進行各種數位分析。藉助CTP API和網站的插件系統,中國哲學書電子化計劃和其他數位計劃是互通的,例如Text Tools、TextRef和MARKUS。
網站內容
這個網站的基本內容包括中國古籍的經過點校和抄本的電子版,也包括基於這些版本而生成的電子文字版。圖版和錄文這兩種內容是互為關聯的。包含這兩種元素的圖文對照界面使得用戶可以在檢閱文字版的同時,參考文字來源的圖錄,並以此有效地進行校對和抄錄工作。圖文對照的界面也允許眾包用戶對文字進行修訂和加上注釋,例如是修正OCR生成的文字版,或對白文加上標點。
Texts are divided into pre-Qin and Han texts, and post-Han texts, with the former categorized by school of thought and the latter by dynasty. The ancient (pre-Qin and Han) section of the database contains over 5 million Chinese characters, the post-Han database over 20 million characters, and the publicly editable wiki section over 5 billion characters.[4] Many texts also have English and Chinese translations, which are paired with the original text paragraph by paragraph as well as phrase by phrase for ease of comparison; this makes it possible for the system to be used as a useful scholarly research tool even by students with little or no knowledge of Chinese.[5] 許多文獻在這個網站上都有多種版本,其錄文是根據不同的具體的版本,系統會一一記錄。
除了提供適用於中國文獻的高階搜索功能[6][7] ,網站還提供多項為專家設計的功能,包括多功能辭典、詞彙列表、互文信息[8]、文本來源的圖錄、字詞索引及相關信息[9]、元數據、注釋信息的顯示[10]、羅列公開數位資源的資料庫,以及可連接到本網站任何一條數據的論壇。[11][12] 中國哲學書電子化計劃的「圖書館」包含超過2500萬頁的中國古籍掃描圖版,[13][14]並且跟全文庫逐行關聯。這其中有許多是OCR生成的,[15]並可通過一個線上、眾包的維基系統編輯和維護。[16][17]這些文本數據和元數據可以通過API輸出,所以可以跟其他線上工具連接,也方便用於文本挖掘和數位人文計劃。[16][18]
功能
系統內嵌了不少功能,而且通過插件和API還可以加入更多功能。基本工具包括辭典功能,提供來自本系統的關於某字詞的信息,例如是辭典中所記錄的出處引文、各種文獻記載的音韻信息、字詞過去的用法,以及翻譯(如果有的話)等。辭典也支持以Unicode以外的語言來搜索。
利用為了這個網站特別設計的OCR,這個系統大幅減低了古籍錄文的錯誤率,提供了大量過去沒有的古籍版本之文字。[19] 這些以OCR生成的錄文讓用戶得以對古籍的圖像版進行搜索,其中包括哈佛燕京圖書館中文善本特藏數碼化計劃的內容和其他大學圖書館的提供的館藏內容。這個網站的用戶可以集體對錄文進行修訂,糾正其中錯誤,也可以對文字加上標點和注釋。
除了提供跟外部工具和其他計劃的整合機制,中國哲學書電子化計劃的CTP API and plugin system還提供了強大的工鞥呢,使得其中的文本數據可用於文本挖掘研究和數位人文教學。這些外部工具包括Text Tools,使得一下功能變為可能:瀏覽器中的字詞統計、互文分析、文本相似度分析,以及對系統上文本的其他面向之互動可視化。網站還提供一個Python工具包,提供更專門的數據挖掘操作,並和API相關聯。
參考文獻
- ↑ Elman, Benjamin A. Classical Historiography for Chinese History: Databases & electronic texts. Princeton University. [June 3, 2016].
- ↑ Association of Chinese Philosophers in North America (北美中国哲学学者协会)
- ↑ Chris Fraser, Department of Philosophy, University of Hong Kong
- ↑ http://ctext.org/system-statistics
- ↑ Connolly, Tim. Learning Chinese Philosophy with Commentaries. Teaching Philosophy (Philosophy Documentation Center). 2012, 35 (1): 1–18 [March 19, 2017].
- ↑ http://ctext.org/instructions/advanced-search
- ↑ http://ctext.org/faq/normalization
- ↑ Sturgeon, Donald. Unsupervised identification of text reuse in early Chinese literature. Digital Scholarship in the Humanities (Oxford University Press). 2017 [November 21, 2017].
- ↑ Xu, Jiajin. Corpus-based Chinese studies: A historical review from the 1920s to the present. Chinese Language & Discourse (John Benjamins Publishing Company). 2015, 6 (2): 218–244 [June 3, 2016].
- ↑ Adkins, Martha A. Web Review: Online Resources for the Study of Chinese Religion and Philosophy. Theological Librarianship (American Theological Library Association). 2016, 9 (2): 5–8 [November 7, 2016].
- ↑ Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213
- ↑ http://ctext.org/introduction
- ↑ http://ctext.org/library.pl?if=en
- ↑ http://ctext.org/system-statistics
- ↑ Template:Cite conference
- ↑ 16.0 16.1 https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham
- ↑ http://ctext.org/instructions/ocr
- ↑ http://ctext.org/tools/api
- ↑ Template:Cite conference