「中国哲学書電子化計画」の版間の差分
(ページの作成:「中国哲学書電子化計画(英語:Chinese Text Project)は、オンライン古籍文献検索システムであり<ref>[http://library.ust.hk/res/beyond/Electr...」) |
|||
1行目: | 1行目: | ||
− | + | '''中国哲学書電子化計画''' (CTP; 中國哲學書電子化計劃) とはアクセスが公開された [[デジタルライブラリー]] であり、複写機能、閲覧機能、および[[Chinese classics|early Chinese texts]]の検索機能などの幅広い機能を提供している。. 本システムはアクセスが容易であり、かつ的確な幅広い文献<ref>{{cite web | url = https://www.princeton.edu/chinese-historiography/electronic-resources/databases-electronic-text/ | title = Classical Historiography for Chinese History: Databases & electronic texts | last = Elman | first = Benjamin A. | publisher = Princeton University | access-date = June 3, 2016}}</ref> の提供を目的としており、中でも特に中国哲学と関連した文献を中心に提供している。 本サイトはインターネット上において最大であり、かつ的確な中国古典哲学の文献庫として認めれらており、<ref>[http://www.acpa-net.org/scholarship.html Association of Chinese Philosophers in North America (北美中国哲学学者协会)]</ref><ref>[http://cjfraser.net/links/#etext Chris Fraser], Department of Philosophy, University of Hong Kong</ref> 同時に中国古典文献の研究において最も有用な文献庫の一つとされている。<ref>http://warpweftandway.com/support-the-chinese-text-project/</ref><ref>http://languagehat.com/chinese-text-project/</ref> | |
+ | |||
+ | Application Programming Interface (API)などの外部ツールとリンクした多様な機能を用いることで、本システムでは中国古典文献の幅広いデジタル分析を容易にする。 [https://ctext.org/tools/api CTP API]という挿入システム[https://ctext.org/tools/plugins plugin system] を用いているため、中国哲学書電子化計画は、 [[Text Tools]]、[[TextRef]]、 そして [[MARKUS]]を含めた他の数個のシステムと相互に互換性を持っている。 | ||
− | + | ==サイトの内容== | |
+ | |||
+ | [[File:Liezi text flow.png|200px|thumb|right|Text in transcription view]] 本サイトの中心内容は | ||
+ | デジタル化された出版版本のコピーと現存の中国古典文献の原稿から成り立っており、 | ||
+ | これらの原稿(版)に基づいて作成されたデジタル抄写もセットとなっている。 | ||
+ | |||
+ | これらの二種類の描写 - イメージ図と原稿 -は 互いに密接に関連している。 | ||
+ | このような両面境界面のシステムを用いる際の利点として、原文を検閲していながらも自然と抄写された歴史的材料のイメージのいかなる部分にも即時アクセスできるということが挙げられる。そうすることで、原稿の正確さの効率的な確認を容易にすることができる。 | ||
+ | ページごとの閲覧においても、公開されたクラウドソーシングインターフェイスへの直接的な アクセスが可能であり、文章に対する直接的な訂正や注釈を行うことができる。例えば、OCRを用いて抄写された文章を訂正したり、現代的な句読点を文章に加えたり、削除したりすることが可能である。 | ||
+ | |||
+ | [[File:Liezi-page.png|200px|thumb|right|Same text in page-by-page view]] | ||
+ | |||
+ | サイト上の文献は先秦と漢の文献と、漢より後の文献に分けられており、前者は[[Hundred Schools of Thought|school of thought]]、後者は[[Dynasties in Chinese history|dynasty]]によって分類されている。先秦と漢の文献のデータベースには5百万字超え、漢より後の文献は2000万字ものデータがあり、編集が公開されている[[wiki]]セクションには5億字超えのデータが存在している。<ref>http://ctext.org/system-statistics</ref> | ||
+ | 多くの文献は英語と現代中国語の翻訳が付いており、比較を行いやすいように、原文と章ごと、文ごとに対応している。こうすることで、本システムが中国語の知識があまりない学生や利用者にとっても役にたつようにしている。<ref>{{cite journal | last = Connolly | first = Tim | date = 2012 | title = Learning Chinese Philosophy with Commentaries | url = https://www.pdcnet.org/teachphil/content/teachphil_2012_0035_0001_0001_0018 | journal = Teaching Philosophy | publisher = Philosophy Documentation Center | volume = 35 | issue = 1 | pages = 1-18 | access-date= March 19, 2017}}</ref> また、一つの文献に対して複数の解釈・翻案が利用可能な文献も多く存在し、それぞれ特定の歴史的な版の抄写が添付されている(歴史的な版のイメージ図とリンクしていることもある)。 | ||
+ | |||
+ | 中国文献に適した独自の(カスタマイズされた)検索機能を提供するとともに、<ref>http://ctext.org/instructions/advanced-search</ref><ref>http://ctext.org/faq/normalization</ref> 本サイトは[[Sinology|sinologists]]に関連した独特のフォーマットも利用できないかと試しており、統合的な辞書、語句リスト、parallel passage information<ref>{{cite journal | last = Sturgeon | first = Donald | date = 2017 | title = Unsupervised identification of text reuse in early Chinese literature | url = https://dsturgeon.net/text-reuse-chinese-literature/ | journal = Digital Scholarship in the Humanities | publisher = Oxford University Press | access-date= November 21, 2017 }}</ref>、スキャンされた文献資料、用語索引と目次データ、<ref>{{cite journal | last = Xu | first = Jiajin | date = 2015 | title = Corpus-based Chinese studies: A historical review from the 1920s to the present | url = http://www.ingentaconnect.com/content/jbp/cld/2015/00000006/00000002/art00006 | journal = Chinese Language & Discourse | publisher = John Benjamins Publishing Company | volume = 6 | issue = 2 | pages = 218-244 | access-date= June 3, 2016 }}</ref>、メタデータシステム、注釈データの表示、<ref>{{cite journal | last = Adkins | first = Martha A. | date = 2016 | title = Web Review: Online Resources for the Study of Chinese Religion and Philosophy | url = https://theolib.atla.com/theolib/article/view/435/1515 | journal = Theological Librarianship | publisher = American Theological Library Association | volume = 9 | issue = 2 | pages = 5-8 | access-date= November 7, 2016 }}</ref> 出版された資料データベース、そしてサイト上の特定のデータにリンクしたスレッドでのディスカッションフォーラム<ref>Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213</ref><ref>http://ctext.org/introduction</ref> などが中に含まれている。また、 "図書館"セクションでは、2500万ページもの中国古典文献のスキャンデータが保管されており、<ref>http://ctext.org/library.pl?if=en</ref><ref>http://ctext.org/system-statistics</ref> 文章全体が行ごとの抄写とリンクしており、多くはOptical Character Recognitionを利用して作成されている。<ref>{{cite conference | last = Sturgeon | first = Donald | date = 2017 | title = Unsupervised Extraction of Training Data for Pre-Modern Chinese OCR. | url = https://aaai.org/ocs/index.php/FLAIRS/FLAIRS17/paper/view/15490/15011 | conference = The Thirtieth International Flairs Conference | publisher = AAAI | access-date= November 21, 2017 }}</ref> そして編集と維持にはオンラインのクラウドソーシングウィキシステムが利用されている。<ref name="cpi">https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham</ref><ref>http://ctext.org/instructions/ocr</ref> 文字データとメタデータは、[[text mining]]や[digital humanities]]プロジェクトにも使用されている、他のオンラインツールとの合併が可能なApplication Programming Interfaceを利用して出力することができる。<ref name="cpi" /><ref>http://ctext.org/tools/api</ref> | ||
+ | |||
+ | ==機能== | ||
+ | |||
+ | [[File:Wenjin.png|200px|thumb|right|Dictionary page for non-Unicode character]] 多くの機能はシステム自体に内蔵されており、外部挿入やAPIなどを通してさらに多くの機能を取り入れることが可能となっている。代表的な機能にはシステム自身が持っている知識がら得た語彙や文字の情報をまとめた統合的な辞書がある。その中には歴史的辞書からの引用や、様々な古典的資料から得た音声注釈、保証された単語の使用などが可能な範囲での翻訳とともに収録されている。 | ||
+ | また、本辞書はUnicodeではない文字であっても、データベースの中の特定の位置に存在することが証明されたものであれば、検索が可能となっている。 | ||
+ | [[File:Ctext-ocr.png|200px|thumb|right|Comparison of typical error rates on a page of pre-modern Chinese text]] | ||
+ | |||
+ | 本プロジェクトのために特別に開発された、視覚的文字の認知機能は、他の手法に比べてエラーがい大幅に少なく、本システムの中で広く利用されている。この認知機能は、以前までデジタル形式では利用できなかった様々な文献や版の抄写を可能にすることができる。 | ||
+ | <ref>{{cite conference | last = Sturgeon | first = Donald | date = 2017 | title = Unsupervised Extraction of Training Data for Pre-Modern Chinese OCR. | url = https://aaai.org/ocs/index.php/FLAIRS/FLAIRS17/paper/view/15490/15011 | conference = The Thirtieth International Flairs Conference | publisher = AAAI | access-date= November 21, 2017 }}</ref> | ||
+ | |||
+ | 視覚的文字の認識機能を通して作成された抄写はスキャンされた古典的な版の画像の全文検索に使用され、その中には大学図書館やHarvard Yenching Chinese Rare Books Digitization Projectのような大規模のスキャンプロジェクトから提供されたデータも含まれている。本システムの使用者たちは作成された抄写文献を協同的に編集しながら、OCRエラーの修正や現代的な句読点と他の注釈を付け加えていくことになる。 | ||
+ | |||
+ | 外部ツールやプロジェクトとの調整のメカニズムを提供すると同時に、[https://ctext.org/tools/api CTP API] と[https://ctext.org/tools/plugins plugin system]は文献発掘調査やデジタル人間性教育(digital humanities teaching)に使用する文献的調査へのプログラムのアクセスにとって重要な役割を果たしている。[[Text Tools]]のような外部ツールは言語使用、文章再利用、文献の類似性、そして相互の結果可視化のようなシステムに含まれた文章の他の側面などをブラウザ上で分析することを容易にすることができる。[https://pypi.org/project/ctext/ Python module]というインターフェース装置は同じAPIを使用しているシステムがより特化されたデータの発掘調査を可能にしている。 | ||
+ | ==参考資料== | ||
+ | {{reflist|2}} | ||
+ | |||
+ | ==外部リンク== | ||
+ | * [http://ctext.org Chinese Text Project] | ||
+ | * [http://ctext.org/zh 中國哲學書電子化計劃] | ||
+ | * [https://site.douban.com/137325/ Chinese Text Project] at Douban | ||
− | |||
[[zh:中國哲學書電子化計劃]] | [[zh:中國哲學書電子化計劃]] | ||
− | [[ | + | [[ja:中国哲学書電子化計画]] |
+ | |||
+ | [[分類:Projects]] | ||
+ | [[分類:Full text databases]] | ||
+ | [[分類:Digital libraries]] | ||
+ | [[分類:Digital humanities]] | ||
+ | [[分類:Chinese classic texts]] | ||
+ | [[分類:Projects with APIs]] |
2018年6月22日 (金) 05:38時点における版
中国哲学書電子化計画 (CTP; 中國哲學書電子化計劃) とはアクセスが公開された デジタルライブラリー であり、複写機能、閲覧機能、およびearly Chinese textsの検索機能などの幅広い機能を提供している。. 本システムはアクセスが容易であり、かつ的確な幅広い文献[1] の提供を目的としており、中でも特に中国哲学と関連した文献を中心に提供している。 本サイトはインターネット上において最大であり、かつ的確な中国古典哲学の文献庫として認めれらており、[2][3] 同時に中国古典文献の研究において最も有用な文献庫の一つとされている。[4][5]
Application Programming Interface (API)などの外部ツールとリンクした多様な機能を用いることで、本システムでは中国古典文献の幅広いデジタル分析を容易にする。 CTP APIという挿入システムplugin system を用いているため、中国哲学書電子化計画は、 Text Tools、TextRef、 そして MARKUSを含めた他の数個のシステムと相互に互換性を持っている。
サイトの内容
本サイトの中心内容はデジタル化された出版版本のコピーと現存の中国古典文献の原稿から成り立っており、 これらの原稿(版)に基づいて作成されたデジタル抄写もセットとなっている。
これらの二種類の描写 - イメージ図と原稿 -は 互いに密接に関連している。 このような両面境界面のシステムを用いる際の利点として、原文を検閲していながらも自然と抄写された歴史的材料のイメージのいかなる部分にも即時アクセスできるということが挙げられる。そうすることで、原稿の正確さの効率的な確認を容易にすることができる。 ページごとの閲覧においても、公開されたクラウドソーシングインターフェイスへの直接的な アクセスが可能であり、文章に対する直接的な訂正や注釈を行うことができる。例えば、OCRを用いて抄写された文章を訂正したり、現代的な句読点を文章に加えたり、削除したりすることが可能である。
サイト上の文献は先秦と漢の文献と、漢より後の文献に分けられており、前者はschool of thought、後者はdynastyによって分類されている。先秦と漢の文献のデータベースには5百万字超え、漢より後の文献は2000万字ものデータがあり、編集が公開されているwikiセクションには5億字超えのデータが存在している。[6] 多くの文献は英語と現代中国語の翻訳が付いており、比較を行いやすいように、原文と章ごと、文ごとに対応している。こうすることで、本システムが中国語の知識があまりない学生や利用者にとっても役にたつようにしている。[7] また、一つの文献に対して複数の解釈・翻案が利用可能な文献も多く存在し、それぞれ特定の歴史的な版の抄写が添付されている(歴史的な版のイメージ図とリンクしていることもある)。
中国文献に適した独自の(カスタマイズされた)検索機能を提供するとともに、[8][9] 本サイトはsinologistsに関連した独特のフォーマットも利用できないかと試しており、統合的な辞書、語句リスト、parallel passage information[10]、スキャンされた文献資料、用語索引と目次データ、[11]、メタデータシステム、注釈データの表示、[12] 出版された資料データベース、そしてサイト上の特定のデータにリンクしたスレッドでのディスカッションフォーラム[13][14] などが中に含まれている。また、 "図書館"セクションでは、2500万ページもの中国古典文献のスキャンデータが保管されており、[15][16] 文章全体が行ごとの抄写とリンクしており、多くはOptical Character Recognitionを利用して作成されている。[17] そして編集と維持にはオンラインのクラウドソーシングウィキシステムが利用されている。[18][19] 文字データとメタデータは、text miningや[digital humanities]]プロジェクトにも使用されている、他のオンラインツールとの合併が可能なApplication Programming Interfaceを利用して出力することができる。[18][20]
機能
多くの機能はシステム自体に内蔵されており、外部挿入やAPIなどを通してさらに多くの機能を取り入れることが可能となっている。代表的な機能にはシステム自身が持っている知識がら得た語彙や文字の情報をまとめた統合的な辞書がある。その中には歴史的辞書からの引用や、様々な古典的資料から得た音声注釈、保証された単語の使用などが可能な範囲での翻訳とともに収録されている。また、本辞書はUnicodeではない文字であっても、データベースの中の特定の位置に存在することが証明されたものであれば、検索が可能となっている。
本プロジェクトのために特別に開発された、視覚的文字の認知機能は、他の手法に比べてエラーがい大幅に少なく、本システムの中で広く利用されている。この認知機能は、以前までデジタル形式では利用できなかった様々な文献や版の抄写を可能にすることができる。 [21]
視覚的文字の認識機能を通して作成された抄写はスキャンされた古典的な版の画像の全文検索に使用され、その中には大学図書館やHarvard Yenching Chinese Rare Books Digitization Projectのような大規模のスキャンプロジェクトから提供されたデータも含まれている。本システムの使用者たちは作成された抄写文献を協同的に編集しながら、OCRエラーの修正や現代的な句読点と他の注釈を付け加えていくことになる。
外部ツールやプロジェクトとの調整のメカニズムを提供すると同時に、CTP API とplugin systemは文献発掘調査やデジタル人間性教育(digital humanities teaching)に使用する文献的調査へのプログラムのアクセスにとって重要な役割を果たしている。Text Toolsのような外部ツールは言語使用、文章再利用、文献の類似性、そして相互の結果可視化のようなシステムに含まれた文章の他の側面などをブラウザ上で分析することを容易にすることができる。Python moduleというインターフェース装置は同じAPIを使用しているシステムがより特化されたデータの発掘調査を可能にしている。
参考資料
- ↑ テンプレート:Cite web
- ↑ Association of Chinese Philosophers in North America (北美中国哲学学者协会)
- ↑ Chris Fraser, Department of Philosophy, University of Hong Kong
- ↑ http://warpweftandway.com/support-the-chinese-text-project/
- ↑ http://languagehat.com/chinese-text-project/
- ↑ http://ctext.org/system-statistics
- ↑ テンプレート:Cite journal
- ↑ http://ctext.org/instructions/advanced-search
- ↑ http://ctext.org/faq/normalization
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ Holger Schneider and Jeff Tharsen, http://dissertationreviews.org/archives/9213
- ↑ http://ctext.org/introduction
- ↑ http://ctext.org/library.pl?if=en
- ↑ http://ctext.org/system-statistics
- ↑ テンプレート:Cite conference
- ↑ 18.0 18.1 https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/, China Policy Institute, University of Nottingham
- ↑ http://ctext.org/instructions/ocr
- ↑ http://ctext.org/tools/api
- ↑ テンプレート:Cite conference
外部リンク
分類:Projects 分類:Full text databases 分類:Digital libraries 分類:Digital humanities 分類:Chinese classic texts 分類:Projects with APIs