Ogiso Toshinobu
National Institute for Japanese Language and Linguistics. Professor

『日本語歴史コーパス』 ver. 2018.9

国立国語研究所では、奈良時代から明治・大正時代までの日本語の歴史を研究することのできる通時コーパスとして『日本語歴史コーパス』の構築を行っている。このコーパスは、全文に単語の情報を付与することで高度な検索を可能にしたもので、検索サービス「中納言」を通じてオンラインで無料で利用することができる(https://chunagon.ninjal.ac.jp)。

これまでに、奈良時代編の万葉集から、明治・大正時代の雑誌まで、各時代の資料のコーパス化を行った。毎年、2~3のサブコーパスを公開しているおり、今年3月には「室町時代編Ⅱキリシタン資料」と「江戸時代編Ⅰ洒落本」の公開を行ったほか、9月には近代の国定読本(国語教科書)の公開を予定している。

本発表では、このコーパスの特長と最新の構築情報について報告する。また、新たに公開された資料について、その資料の価値と利用方法について解説を行う。具体的には、原文のポルトガル式ローマ字と漢字仮名交じり文を併記した「キリシタン資料」、インターネット上で公開されている原文画像データとリンクした「洒落本」「国定読本」について解説する。

“Corpus of historical Japanese” ver. 2018.9

At the National Institute for Japanese Language Studies, we are constructing the "Corpus of Historical Japanese " as a diachronic corpus where you can study the history of Japanese from the Nara period to the Meiji and Taisho eras. This corpus enables advanced search by annotating word information to the whole sentence. It can be used online through the search service "Chunagon" (https://chunagon.ninjal.ac.jp) for free of charge.

So far, we have corpused materials from each era, from Manyoshu in the Nara period to magazines in the Meiji and Taisho era. Every year, we publish 2 to 3 sub-corpora: in March this year, we published "Muromachi period series II Christian materials" and "Edo period series I Sharebon". In addition, we are planning to publish Kokutei-tokuhon (national book reader) in this September.

In this presentation, we report on the features of this corpus and the latest information of construction. In addition, we will explain the value of the newly released material and its usage. Specifically, we will explain the "Christian materials" which includes original Portuguese Roman alphabet text and Kanji-Kana Japanese text, and "Sharebon" and "Kokutei-tokuhon" linked with original text image data on the Internet.