「中国哲学書電子化計画」の版間の差分
39行目: | 39行目: | ||
[[zh:中國哲學書電子化計劃]] | [[zh:中國哲學書電子化計劃]] | ||
[[en:Chinese Text Project]] | [[en:Chinese Text Project]] | ||
− | + | [[Category:全文データベース]] | |
− | [[ | + | [[Category:Projects with APIs]] |
− | |||
− | [[ | ||
− | |||
− | |||
− |
2018年7月5日 (木) 00:41時点における最新版
中国哲学書電子化計画 (CTP; 中國哲學書電子化計劃) とはアクセスが公開された デジタルライブラリー であり、複写機能、閲覧機能、およびearly Chinese textsの検索機能などの幅広い機能を提供しています。. 本システムはアクセスが容易であり、かつ的確な幅広い文献[1] の提供を目的としており、中でも特に中国哲学と関連した文献を中心に提供しています。 本サイトはインターネット上において最大であり、かつ的確な中国古典哲学の文献庫として認めれらており、[2][3] 同時に中国古典文献の研究において最も有用な文献庫の一つとされています。[4][5]
Application Programming Interface (API)などの外部ツールとリンクした多様な機能を用いることで、本システムでは中国古典文献の幅広いデジタル分析を容易にします。 CTP APIという挿入システムplugin system を用いているため、中国哲学書電子化計画は、 Text Tools、TextRef、 そして MARKUSを含めた他の数個のシステムと相互に互換性を持っています。
サイトの内容
本サイトの中心内容はデジタル化された出版版本のコピーと現存の中国古典文献の原稿から成り立っており、これらの原稿(版)に基づいて作成されたデジタル抄写もセットとなっています。これらの二種類の描写 - イメージ図と原稿 -は 互いに密接に関連しています。このような両面境界面のシステムを用いる際の利点として、原文を検閲していながらも自然と抄写された歴史的材料のイメージのいかなる部分にも即時アクセスできるということが挙げられます。そうすることで、原稿の正確さの効率的な確認を容易にすることができます。 ページごとの閲覧においても、公開されたクラウドソーシングインターフェイスへの直接的なアクセスが可能であり、文章に対する直接的な訂正や注釈を行うことができます。例えば、OCRを用いて抄写された文章を訂正したり、現代的な句読点を文章に加えたり、削除したりすることが可能です。
サイト上の文献は先秦と漢の文献と、漢より後の文献に分けられており、前者はschool of thought、後者はdynastyによって分類されています。先秦と漢の文献のデータベースには5百万字超え、漢より後の文献は2000万字ものデータがあり、編集が公開されているwikiセクションには5億字超えのデータが存在しています。[6] 多くの文献は英語と現代中国語の翻訳が付いており、比較を行いやすいように、原文と章ごと、文ごとに対応しています。こうすることで、本システムが中国語の知識があまりない学生や利用者にとっても役にたつようにしています。[7] また、一つの文献に対して複数の解釈・翻案が利用可能な文献も多く存在し、それぞれ特定の歴史的な版の抄写が添付されています(歴史的な版のイメージ図とリンクしていることもあります)。
中国文献に適した独自の(カスタマイズされた)検索機能を提供するとともに、[8][9] 本サイトはsinologistsに関連した独特のフォーマットも利用できないかと試しており、統合的な辞書、語句リスト、parallel passage information[10]、スキャンされた文献資料、用語索引と目次データ、[11]、メタデータシステム、注釈データの表示、[12] 出版された資料データベース、そしてサイト上の特定のデータにリンクしたスレッドでのディスカッションフォーラム[13][14] などが中に含まれています。また、 "図書館"セクションでは、2500万ページもの中国古典文献のスキャンデータが保管されており、[15][16] 文章全体が行ごとの抄写とリンクしており、多くはOptical Character Recognitionを利用して作成されています。[17] そして編集と維持にはオンラインのクラウドソーシングウィキシステムが利用されています。[18][19] 文字データとメタデータは、text miningや[digital humanities]]プロジェクトにも使用されている、他のオンラインツールとの合併が可能なApplication Programming Interfaceを利用して出力することができます。[18][20]
機能
多くの機能はシステム自体に内蔵されており、外部挿入やAPIなどを通してさらに多くの機能を取り入れることが可能です。代表的な機能にはシステム自身が持っている知識がら得た語彙や文字の情報をまとめた統合的な辞書があります。その中には歴史的辞書からの引用や、様々な古典的資料から得た音声注釈、保証された単語の使用などが可能な範囲での翻訳とともに収録されています。また、本辞書はユニコード(Unicode)ではない文字であっても、データベースの中の特定の位置に存在することが証明されたものであれば、検索が可能となっています。
本プロジェクトのために特別に開発された、視覚的文字の認知機能は、他の手法に比べてエラーがい大幅に少なく、本システムの中で広く利用されています。この認知機能は、以前までデジタル形式では利用できなかった様々な文献や版の抄写を可能にすることができます。 [21]
視覚的文字の認識機能を通して作成された抄写はスキャンされた古典的な版の画像の全文検索に使用され、その中には大学図書館やHarvard Yenching Chinese Rare Books Digitization Projectのような大規模のスキャンプロジェクトから提供されたデータも含まれています。本システムの使用者たちは作成された抄写文献を協同的に編集しながら、OCRエラーの修正や現代的な句読点と他の注釈を付け加えていくことになります。
外部ツールやプロジェクトとの調整のメカニズムを提供すると同時に、CTP API とplugin systemは文献発掘調査やデジタル人間性教育(digital humanities teaching)に使用する文献的調査へのプログラムのアクセスにとって重要な役割を果たしています。Text Toolsのような外部ツールは言語使用、文章再利用、文献の類似性、そして相互の結果可視化のようなシステムに含まれた文章の他の側面などをブラウザ上で分析することを容易にすることができます。Python moduleというインターフェース装置は同じAPIを使用しているシステムがより特化されたデータの発掘調査を可能にしています。
参考資料
- ↑ テンプレート:Cite web
- ↑ Association of Chinese Philosophers in North America (北美中国哲学学者协会)
- ↑ Chris Fraser, Department of Philosophy, University of Hong Kong
- ↑ http://warpweftandway.com/support-the-chinese-text-project/
- ↑ http://languagehat.com/chinese-text-project/
- ↑ http://ctext.org/system-statistics
- ↑ テンプレート:Cite journal
- ↑ http://ctext.org/instructions/advanced-search
- ↑ http://ctext.org/faq/normalization
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213
- ↑ http://ctext.org/introduction
- ↑ http://ctext.org/library.pl?if=en
- ↑ http://ctext.org/system-statistics
- ↑ テンプレート:Cite conference
- ↑ 18.0 18.1 https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham
- ↑ http://ctext.org/instructions/ocr
- ↑ http://ctext.org/tools/api
- ↑ テンプレート:Cite conference