中国哲学書電子化計画

提供: Digital Sinology
2018年6月22日 (金) 07:55時点におけるDsturgeon (トーク | 投稿記録)による版
移動先: 案内検索

中国哲学書電子化計画 (CTP; 中國哲學書電子化計劃) とはアクセスが公開された デジタルライブラリー であり、複写機能、閲覧機能、およびearly Chinese textsの検索機能などの幅広い機能を提供している。. 本システムはアクセスが容易であり、かつ的確な幅広い文献[1] の提供を目的としており、中でも特に中国哲学と関連した文献を中心に提供している。 本サイトはインターネット上において最大であり、かつ的確な中国古典哲学の文献庫として認めれらており、[2][3] 同時に中国古典文献の研究において最も有用な文献庫の一つとされている。[4][5]

Application Programming Interface (API)などの外部ツールとリンクした多様な機能を用いることで、本システムでは中国古典文献の幅広いデジタル分析を容易にする。 CTP APIという挿入システムplugin system を用いているため、中国哲学書電子化計画は、 Text ToolsTextRef、 そして MARKUSを含めた他の数個のシステムと相互に互換性を持っている。

サイトの内容

Text in transcription view
本サイトの中心内容は

デジタル化された出版版本のコピーと現存の中国古典文献の原稿から成り立っており、 これらの原稿(版)に基づいて作成されたデジタル抄写もセットとなっている。

これらの二種類の描写 - イメージ図と原稿 -は 互いに密接に関連している。 このような両面境界面のシステムを用いる際の利点として、原文を検閲していながらも自然と抄写された歴史的材料のイメージのいかなる部分にも即時アクセスできるということが挙げられる。そうすることで、原稿の正確さの効率的な確認を容易にすることができる。 ページごとの閲覧においても、公開されたクラウドソーシングインターフェイスへの直接的な アクセスが可能であり、文章に対する直接的な訂正や注釈を行うことができる。例えば、OCRを用いて抄写された文章を訂正したり、現代的な句読点を文章に加えたり、削除したりすることが可能である。

Same text in page-by-page view

サイト上の文献は先秦と漢の文献と、漢より後の文献に分けられており、前者はschool of thought、後者はdynastyによって分類されている。先秦と漢の文献のデータベースには5百万字超え、漢より後の文献は2000万字ものデータがあり、編集が公開されているwikiセクションには5億字超えのデータが存在している。[6] 多くの文献は英語と現代中国語の翻訳が付いており、比較を行いやすいように、原文と章ごと、文ごとに対応している。こうすることで、本システムが中国語の知識があまりない学生や利用者にとっても役にたつようにしている。[7] また、一つの文献に対して複数の解釈・翻案が利用可能な文献も多く存在し、それぞれ特定の歴史的な版の抄写が添付されている(歴史的な版のイメージ図とリンクしていることもある)。

中国文献に適した独自の(カスタマイズされた)検索機能を提供するとともに、[8][9] 本サイトはsinologistsに関連した独特のフォーマットも利用できないかと試しており、統合的な辞書、語句リスト、parallel passage information[10]、スキャンされた文献資料、用語索引と目次データ、[11]、メタデータシステム、注釈データの表示、[12] 出版された資料データベース、そしてサイト上の特定のデータにリンクしたスレッドでのディスカッションフォーラム[13][14] などが中に含まれている。また、 "図書館"セクションでは、2500万ページもの中国古典文献のスキャンデータが保管されており、[15][16] 文章全体が行ごとの抄写とリンクしており、多くはOptical Character Recognitionを利用して作成されている。[17] そして編集と維持にはオンラインのクラウドソーシングウィキシステムが利用されている。[18][19] 文字データとメタデータは、text miningや[digital humanities]]プロジェクトにも使用されている、他のオンラインツールとの合併が可能なApplication Programming Interfaceを利用して出力することができる。[18][20]

機能

Dictionary page for non-Unicode character
多くの機能はシステム自体に内蔵されており、外部挿入やAPIなどを通してさらに多くの機能を取り入れることが可能となっている。代表的な機能にはシステム自身が持っている知識がら得た語彙や文字の情報をまとめた統合的な辞書がある。その中には歴史的辞書からの引用や、様々な古典的資料から得た音声注釈、保証された単語の使用などが可能な範囲での翻訳とともに収録されている。

また、本辞書はUnicodeではない文字であっても、データベースの中の特定の位置に存在することが証明されたものであれば、検索が可能となっている。

Comparison of typical error rates on a page of pre-modern Chinese text

本プロジェクトのために特別に開発された、視覚的文字の認知機能は、他の手法に比べてエラーがい大幅に少なく、本システムの中で広く利用されている。この認知機能は、以前までデジタル形式では利用できなかった様々な文献や版の抄写を可能にすることができる。 [21]

視覚的文字の認識機能を通して作成された抄写はスキャンされた古典的な版の画像の全文検索に使用され、その中には大学図書館やHarvard Yenching Chinese Rare Books Digitization Projectのような大規模のスキャンプロジェクトから提供されたデータも含まれている。本システムの使用者たちは作成された抄写文献を協同的に編集しながら、OCRエラーの修正や現代的な句読点と他の注釈を付け加えていくことになる。

外部ツールやプロジェクトとの調整のメカニズムを提供すると同時に、CTP APIplugin systemは文献発掘調査やデジタル人間性教育(digital humanities teaching)に使用する文献的調査へのプログラムのアクセスにとって重要な役割を果たしている。Text Toolsのような外部ツールは言語使用、文章再利用、文献の類似性、そして相互の結果可視化のようなシステムに含まれた文章の他の側面などをブラウザ上で分析することを容易にすることができる。Python moduleというインターフェース装置は同じAPIを使用しているシステムがより特化されたデータの発掘調査を可能にしている。

参考資料

  1. テンプレート:Cite web
  2. Association of Chinese Philosophers in North America (北美中国哲学学者协会)
  3. Chris Fraser, Department of Philosophy, University of Hong Kong
  4. http://warpweftandway.com/support-the-chinese-text-project/
  5. http://languagehat.com/chinese-text-project/
  6. http://ctext.org/system-statistics
  7. テンプレート:Cite journal
  8. http://ctext.org/instructions/advanced-search
  9. http://ctext.org/faq/normalization
  10. テンプレート:Cite journal
  11. テンプレート:Cite journal
  12. テンプレート:Cite journal
  13. Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213
  14. http://ctext.org/introduction
  15. http://ctext.org/library.pl?if=en
  16. http://ctext.org/system-statistics
  17. テンプレート:Cite conference
  18. 18.0 18.1 https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham
  19. http://ctext.org/instructions/ocr
  20. http://ctext.org/tools/api
  21. テンプレート:Cite conference

外部リンク

分類:Digital humanities 分類:Chinese classic texts 分類:Projects with APIs