第一部会(25日)

電子資料の保存用メタデータの特性と現状

鴇田拓哉(筑波大学図書館情報メディア研究科博士後期課程)

(1)研究目的

近年の電子資料に伴い、電子資料の保存について様々な研究が行われている。本発表は電子資料の保存のためのメタデータ(保存用メタデータ)に焦点を当てる。保存用メタデータの中心的な内容は、Migrationなどの保存戦略に基づいた保存作業の履歴の記録やハードウェアやソフトウェアなどの再生環境に関する記録である。図書館で作成されている目録データやDublin Coreといったメタデータは、情報資源を効果的に識別・記述する、あるいは探索を効果的に支援する観点から作成されたものである。このようなメタデータを記述用メタデータと呼ぶことにする。

今後、実際に電子資料に対する保存作業が行われる機会が増加し、それに伴い、保存用メタデータの重要性も高まってくると思われる。そのため、保存用メタデータについて理解しておくことが望まれる。本発表では、メタデータとしてなじみの深い記述用メタデータと比較することにより、保存用メタデータの特性と現状を明らかにすることを目的とする。

(2)研究方法

まず、対象としたそれぞれの保存用メタデータの提案目的や特徴を簡単に整理する。そして、記述用メタデータと保存用メタデータのエレメント(フィールド)の設定(記述)範囲を比較し、保存用メタデータの特性を明らかにする。その際に、著者やタイトルといった資料の同定・識別等の記述的要素、アクセス制限や著作権などの権利管理、ハードウェアやソフトウェアの再生環境などの技術的要素、対象資料を保存する理由といった保存作業の計画や履歴などの管理的要素の4つの要素に分けて比較した。また、設定されたエレメントから窺える保存用メタデータの現状について考察する。  ここで、保存用メタデータとして、オーストラリア国立図書館、英国の大学の図書館コンソーシアムであるCEDARS、ヨーロッパの国立図書館の集まりであるNEDLIB、OCLCとRLGのワーキンググループが提案したものを取り上げた。記述用メタデータは、MARC21フォーマットや「日本目録規則1987年版改訂2版」とした。

(3)得られた結果

対象とした保存用メタデータは、その提案目的などによりエレメント内容や構成が異なる。記述用メタデータとの比較の結果、特に管理的要素と技術的要素に違いが見られた。保存用メタデータには、記述用メタデータには設定されていない管理的要素に関するエレメントが設定されていた。技術的要素においては、ソフトウェアの記述を例にとると、記述用メタデータの設定範囲がファイルのタイプ、バージョンといった現時点の再生に不可欠な事項に限定されるのに対し、保存用メタデータは、静止画では解像度や色調の度合いといったディスプレイ上で表現される画像の状態を左右する情報、テキストではドキュメント型定義(DTD)のタグの名前やテキストの論理構造といった、更に詳細な記述が行えるようなエレメントを設定していた。これらの情報は、対象資料をより長期的に保存していくためには必要なものといえよう。

設定されたエレメントから窺える保存用メタデータの現状として、標準化が行われていないこと、実際の適用方法として、特定のエレメントセットをそのまま利用するのではなく、複数のエレメントセットを組み合わせて利用していることなどがあげられる。

日本古典籍の総合目録構築に関する考察−構築方法と概念モデルについて−

山中秀夫(天理大学総合教育研究センター、総合研究大学院大学数物科学研究科情報学専攻)、宮澤彰(国立情報学研究所)

研究目的

重要な文化遺産である日本古典籍資料は,さまざまなの要因が積み重なって今日まで厖大な量の資料が伝存されている.それらは日本各地にとどまらず,少なからず世界中に存在している.この厖大な量の日本古典籍の有機的な活用をより一層進めるために現在において必要なことは,研究者を主とする利用者への書誌所在情報提供システムの基盤整備である.個別機関による取り組みは従来より様々な形で行われてきた.しかし,道具をととのえるための充分な基盤整備の準備や検討が体系だってなされてこなかったために,その多くは広く活用されず,あるいは,研究者の利用促進にまで到らなかった.従って,まず,日本古典籍の特性を表現できうる国際標準の書誌記述規則が必要となる.しかしそれは,最大の利用者たる研究者の利用にも耐えうる書誌記述でなければならない.と同時に,図書館で提供する情報メディアの一部として,他の情報メディアの書誌記述と互換性を保つ必要もある.

すなわち,図書館界での書誌コントロールという大枠の中で,日本古典籍という情報メディアの特性を充分に表現し,利用に耐えうる書誌記述ができる規則が求められる.今研究においては,図書館の視点に立った,書誌記述規則の提案とその検証システムの構築を目指している.

研究方法

古典籍を対象にした「総合目録データベース」を構築していく上で,1)データベースとしての概念モデル,2)書誌情報の入力のためのフォーマットと採録基準のルール,3)利用のためのインターフェース,がポイントと考えている.1)について,さまざまな資料を対象にしたデータベース概念モデル(IFLA/FRBR,CIDOC/CRM,ISAD(G),NACSIS-CAT,国文研古典籍総合目録DB等)が提唱されているが,古典籍の世界に適用できるかという点で比較検討している.また,2)と関係して,コンピュータを用いた古典籍対象の書誌情報データベースへの取り組みを開始したいくつかのシステムを比較検討している.たとえば,NACSIS-CATだが,今年度より古典籍を登録するための「和漢古書に関する取扱い及び解説」ならびに「コーディング・マニュアル(和漢古書に関する抜粋集)」が準備されて入力 が可能になった.また「欧州所在日本古書総合目録」のオンラインでの試行提供や国立国文学研究資料館の「日本古典資料調査データベース」「国書基本データベース(著作編)」など,総覧のためのシステムをその対象にしている.海外における同様の取り組みとして,「ESTC(Eighteenth Short-Title Catalogue)」が1970年代後半から始まっている.一方,記述規則を検討する上で,既刊の和漢古典籍目録の記入の単位や記述内容を比較検討した(一昨年,昨年の本学会研究大会で発表).これらを考慮しながら,現在において実現可能な方法での日本古典籍の総合目録データベースの構築を考察している.

予想される成果

『国書総目録』などに代表される,既刊の古典籍目録からの情報の採録による総合目録の構築や,「ESTC」などのような,情報を特定のところで編集する従来からの総合目録の構築の方法では,限界がある.とすれば,協同で構築していく方法での目録を指向する必要がある.当然のことながら利用に耐えうる目録であるということとの両立を図る必要がある.「利用に耐えうる目録」になり得るかは,「書誌的に同定識別できる情報」が提供できるか否かである.しかし,このことについては採録者の古典籍資料に対する熟練度やコンピュータで書誌情報を扱うことによる文字の問題などが生じる.この点について,記述とアクセスポイントの関係や,イメージデータの利用,典拠データとのリンクなどの活用を考えている.この方法を利用することによって,日本古典籍だけでなく,将来的には その他の国の古典籍資料も同様に扱うことができるのではと考えている.

根拠の記録を伴う書誌記述法

谷口祥一(筑波大学図書館情報学系)

目録(または記述的メタデータ)の作成において、これまでは各データ項目に対して、その採用した値(記述対象資料から得られた値または付与した値)のみ記録されてきた。目録は現在でも高品質なデータの実例ではあるが、より永続的かつインターオペラビリティを備えたデータとする、あるいはより信頼性の高いデータとすることが、他方で求められている。

本研究では、そのための一つの方策として、各データ項目の値の記述処理において使用された記述規則や、値の採取箇所など記述処理タスクの入出力データを、値の根拠として値そのものに加えて記録することの可能性を検討し、併せてその有効な活用を試みる。根拠の記録により、巨視的には同一資料に対する異なる目録データの同定(対象資料の同一性の判定)に寄与し、微視的には異なる目録データ間における値の不一致の説明機能を果たし、場合によっては値の変換や併合をも可能とする。さらには、根拠の記録を伴うことにより、単一データ項目に対して複数の異なる値を矛盾なく記録することが可能となり、特に継続資料(逐次刊行物、およびWebサイト等の更新資料)の記録作成に柔軟性をもたらすことが期待される。

研究方法および得られた成果は、以下の通りである。

1.根拠の類型化を図り、a)処理ルールの識別子、b)処理ルールの入出力データ(または処理による状態遷移)、c)処理ルールによる処理内容そのものの指示という3つのクラスを設定した。さらには、処理タスクのクラス(例えば、値の情報源選択タスク、選択された情報源からの値の採用タスク、採用した値の整形タスクなど)をこれら根拠のクラスに組み合わせることができる。特に、b)処理ルールの入出力データにおいては、こうした組み合わせが重要となる。加えて、根拠の適用対象レベルを、a)レコードレベル、b)データ項目レベル、c)データ項目値レベルに分け検討し、それぞれのレベルに適用可能な根拠の粒度を明確化した。

2.現行の目録規則等から、根拠の記録を伴った記述法と解釈できる実例を探し抽出した。

3.上記1の類型化を踏まえて、根拠の記録を伴う記述例を新たに作成した。例えば、既存MARCレコードに根拠の記録を加えたものや、Dublin Coreによるメタデータに根拠の記録を付加した例などを作成した。併せて、記述結果のレコードやメタデータがXMLまたはRDF/XMLを用いてコーディングされているときの根拠の指示方式を検討した。

4.個々のレコードにデータ項目値と根拠の組みが記録されている場合、複数のレコードを比べたときにそれらが取りうるパターンを列挙し、記録された根拠の活用法を検討した。具体的には、1)データ項目値の記述処理に必要十分な根拠が個々のレコードに示されているのか、あるいは部分的な根拠のみ示されているのか、さらには2)示された根拠のクラスおよびインスタンスが不一致か、あるいは根拠のインスタンスのみ不一致(クラスは一致)かなどの観点からパターンを展開し、記録されたデータ項目値が一致または不一致の場合に分け、可能な解釈を示した。併せて、それぞれのパターンにおける根拠の可能な活用法を検討した。

言語横断検索技法の性能比較:NTCIRによる実証分析

岸田和明(駿河台大学)、神門典子(国立情報学研究所)、栗山和子(白百合女子大学)、江口浩二(国立情報学研究所)

言語横断検索とは、検索質問と異なる言語で書かれている文献をも検索対象とする検索を指す。この種の検索は、言語に関してボーダーレスであるインターネットの発展に伴って、多くの研究者の関心を引くようになり、現在、盛んに研究が進められている。そこでは数多くの技術・方法が提案されているが、それらの技法の長短・優劣などをさらに探究し、われわれの知見を増やしていく必要がある。本研究の目的は、言語横断検索技法のレビュー・整理を試みるとともに、その代表的なものをとりあげ、NTCIRの日本語テストコレクションを使って性能比較を実証的に試みることにある。

本発表における言語横断検索技法のレビュー・整理の部分では、範囲を広くし、さまざまなものを取り上げる予定であるが、NTCIRによる実証分析の部分では、特に、検索質問を翻訳する方法のうち、(1)対訳辞書を使うもの、(2)機械翻訳システムを使うもの、に焦点を当てる。また、擬似適合フィードバックを使った翻訳後の質問拡張などの、検索性能を向上させるための手法についても実証分析を試みる。

具体的には、テストコレクションNTCIR-2のうちの、日本語文書集合(学会発表の要旨や科学研究費の報告書)と英語の検索質問集合を使う。したがって、本発表では、英語から日本語への2言語の横断検索についての実験を試みることになる。手順としては、言語横断検索システムを自作し、まず、上記のいくつかの技法を使ってそれぞれ検索を実行する。次に、テストコレクションの適合判定ファイルを用いて、各技法の検索性能を評価・比較する。

対訳辞書としては、インターネットから自由にダウンロードできるEDictを使った。また、機械翻訳システムとしては日本で市販されているものを用いた。これらの比較では、後者のほうが優れていた。これは当然、対価を支払わずに利用できる対訳辞書の質の問題に帰せられるけれども、この実験例に基づいて、対訳辞書を使う方法と機械翻訳システムを使う方法との特徴や相違について、議論を試みたい。また、擬似適合フィードバックを使った場合には、わずかながら、検索性能は向上し、従来から指摘されている、この方法の有用性を確認できた。この問題についても、事例に基づいて、さらに議論を試みる予定である。

そのほか、対訳辞書を使用した場合の、訳語の曖昧性の解消の技法についてもいくつか実験を試みる計画である。

キーワード(専門用語)自動抽出システムの構想とその展開

小島浩之(東京大学経済学部資料室)、前田朗(東京大学経済学部図書館)

現在、さまざまな図書館、研究機関でインターネット上の学術情報資源へのポータルサイト構築が進み、多くがDublincoreの定義に準拠したメタデータを採用している。実際にメタデータの作成を体験すると、重要なアクセスポイントの一つとなるキーワード付与は以外と難しく、手間をとられることが解る。そこで採録者の負担を軽減するために準備したのが本システムである。

本システムは、単なる文章の単語分割ではない。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなる。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成さない。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功した。

専門用語の自動抽出にあたっては、東京大学情報基盤センター中川裕志教授、横浜国立大学環境情報研究院森辰則助教授の「専門用語自動抽出システム」を元に、中川教授の教示を受けつつシステムを再設計、再構築した。その結果、単にメタデータの入力支援用のカスタマイズにとどまらず、1)Webによる専門用語自動抽出サービス「言選Web」、2)専門用語抽出のためのPerlモジュール"TermExtract"、3)Internet Explorerと連携して専門用語を抽出する"termex"の3つのシステムを作成し公開するに至った(http://gensen.dl.itc.u-tokyo.ac.jp/)。また、学習機能の付与や、オリジナル版Perlへの対応、英文の高速版の作成をはじめ新規に実現した機能も多い。このように本システムは研究部門と実務部門(図書館職員)の連携により、当初の業務用ツールの構想が新サービスの域にまで発展したものである。

本システムを利用することで、テキストドキュメント中から迅速に専門用語を抽出することができる。加えてオプションの学習機能を使うことにより、特定分野の専門用語抽出についてされに精度を上げることも可能であり、言語学的な研究にも利用可能だと考えている。

電子雑誌に掲載された論文へのアクセス状況:ログデータに基づく予備的分析

竹内比呂也(千葉大学文学部)、土屋俊(千葉大学文学部)、尾城孝一(千葉大学附属図書館)

情報および情報源の利用研究は、図書館情報学の重要なテーマである。学術雑誌の利用については、これまで、質問紙法、観察法、あるいは引用文献分析などの方法により様々な調査が行われてきたが、どの方法にも一長一短があり、正確な利用実態を把握することはきわめて困難であった。しかしながら、利用実態の正確な把握は、研究者等の情報利用行動を明らかにする上で重要な貢献となるばかりでなく、雑誌の購入決定の際にはきわめて重要な判断材料となるなど、実際的な意味合いも持っており、本格的な研究が求められていると言えよう。

近年、学術雑誌の電子化が進み、そのアクセスログを分析することによって、雑誌の利用実態が明らかになる可能性が出てきたこともこの領域での研究を推進する力となっている。しかしながら、ログを分析するといっても、データの質の問題などから、そのような 分析を行うのは困難であった。一定程度の分析が可能なログが入手できるようになったのはごく最近のことに過ぎない。

本発表は、このような状況を鑑み、ログデータを用いた学術雑誌利用研究の嚆矢として、電子化されている、ある学術雑誌のアクセスログを分析した結果を報告するものである。

調査対象として、日本国内で発行されている自然科学分野の学会誌(英文)1誌を選定し、2002年2月から8月の間に公刊された論文の中から10編を任意に抽出して、これらの論文に対する2003年4月までのアクセスログデータを分析した。その結果として各論文 ごとに月毎のアクセス回数を割り出し、アクセスした機関を特定化した。このデータをさらに分析した結果、現時点では以下の点を明らかにすることができた。

1)発刊後の時間の経過とアクセス回数の関係を見たところ、大きく分けてアクセス回数のピークが何度かある論文とそうではない論文の2パターンがある。

2)前者については、最初のアクセスのピークは、公刊直後に起っている。このアクセスはほとんどが日本国内からのものである。公刊後数ヶ月後に生じている2度目のピークについては、国外からのアクセスによって生じている。このようなパターンが生じる要因としては、利用者のブラウジング行動および二次データベースへの採録があることが強く示唆される。

3)各論文についてどこからアクセスされているかを分析したところ、アクセスした機関は論文ごとに異なっていた。 現時点では、ある特定領域の限られた論文を対象にした予備的な分析ではあるが、上記の結果はログデータの分析によって論文単位の利用状況を明らかにできる可能性を示すと同時にそうする必要性をも示している。今後さらに調査・分析をすすめ、利用に影響を与える要因について明らかにしていく予定である。

公共図書館の最適供給

池内淳(大東文化大学文学部)

(1)研究目的

近年、我が国では地方分権が推進されており、財源と権限を地方自治体に移譲することによって、従来の中央集権的な、ナショナル・ミニマムを達成するという政策から、自治体ごとに費用と便益を勘案しつつ、公共財のローカル・オプティマム(地方最適値)を達成するという方向に移行していくものと考えられる。その結果、図書館政策についても、これまで以上に自治体の責任の領域が拡大していくであろう。加えて、地方分権に伴う市町村合併、行政評価、公共政策の説明責任といった自治体を取り巻く様々な環境の変化によって、公共図書館の設置・運営に関わる合理的な計画と実践が求められていると考えられる。しかしながら、これまで、自治体において公共図書館をどの程度供給することが妥当であるのかについての検討が十分になされてきたとは言い難く、そのための基礎研究は殆ど行われていない。そこで、本研究では、自治体における公共図書館の最適供給量を導出するために、既に公表した方法論について、その理論的補強を行うとともに、幾つかの改良点を提案することが目的である。

(2)研究方法

まず、我が国における公共図書館の設置・運営に関する既存のアプローチを批判的に検討しつつ、それらの利点と問題点を洗い出すとともに、考え得る可能なアプローチについても検討を加えることによって、今後、我が国において望まれる図書館資源供給のための方向性を浮き彫りにする。次に、需要と供給の観点から、公共図書館の最適供給水準を定義するための方法論を提示し、その理論的側面の解説と補強を行う。この原初的なモデルについては既に公表したものであるが、今回の発表では、従来のモデルの改良版を考案し、その妥当性について考察を加える。さらに、実際の自治体の統計データを用いたシミュレーションを行い、公共図書館の最適供給量を推定するとともに、推定された最適値に対して、実際の供給量がどの程度であるのかを検証する。

(3)得られた(予想される)成果

本研究において提案されるモデルの有効性としては、(1)既存の公立図書館の数量的基準のような人口段階別の画一的な基準ではなく、自治体固有の需要水準と供給能力との双方を勘案したものであること、(2)既存のアプローチにおいては、市町村合併等によって、その目標値が容易に変化する可能性があるが、ここでは、そういった問題を克服していること、(3)これまで昼間人口と夜間人口の変動をどのように取り込むかが問題であったが、ここではその点について無視することが出来ること、(4)生来、書籍市場との関連性がモデルに組み込まれているため、結果として、図書館サービスの最適な供給水準を考慮することが、両財の代替性について考慮することに繋がるということ、(5)方法論を抽象化し、調査コストをかけることなく、利用可能な統計データを用いて、容易に、最適供給量を算出することが可能になっていること等が挙げられる。

印刷/出版物世界の形式的構成を巡って

影浦峡(国立情報学研究所人間・社会情報研究系)

(1) ネットワーク情報資源の発展をはじめとする社会の「情報化」の進展は、図書館をとりまく状況を変えつつある。そうした変容の中で図書館をはじめとする情報サービスを検討し現実の場に介入するためには、理論の側において、現実と有意味に似通っていながら異なる世界を構成することが必要である。そのためには、現状の図書館の事情を観察するだけでなく、現状の図書館が存立する条件にまで論理的・歴史的にさかのぼって考える必要がある。むろん、社会政治的側面について、そうした議論は多数存在するが、メディアの構造論的側面については、とりわけ「図書館」という概念との関係では手薄である。本発表は、そうした問題意識をもとに、活版印刷術の発明を介して出現した印刷世界がもたらした巨視的な歴史変化を踏まえつつ、印刷/出版物世界の構造を分析することで、現在の図書館を巡る議論が暗黙の前提としている対象メディアの形式的構成を明確にすることを目的とする。

(2) 巨視的な歴史変化を巡る文献調査に基づく議論と図書館情報学的な問題意識から主として計量情報学等で導入された仮説に基づく議論とを論理的につき合わせ、巨視的に認められる歴史変化と印刷/出版物世界の形式的構成との間に整合的な関係が見られる部分を整理することで、図書館を巡る既存の議論の存立条件のメディア論的側面を浮かび上がらせるという分析的なアプローチを取る。メディア論的分析においては、社会的文脈を重視する立場と技術決定論的な立場、あるいは主体重視の立場と構造重視の立場といった大きな対立が存在している。本研究では、いわゆる技術決定論ではないが、構造決定論的な立場を敢えて採用する。たとえ社会的文脈が重要であるとしても、いわゆる「グローバル化」の中で普遍的構造を考慮することが理論に要請されているし、また、仮に現実の図書館運動や将来像の設計とその実現に対して「主体」的介入があり得るとしても、それは構造的な認識を踏まえた上でなされなくてはならないと考えるためである。

(3) 印刷/出版世界の形式的構成を検討することにより、
(a) 印刷時代以降の情報コミュニケーションの基本的な性質としての、表層の量による内容規定性
(b) それと言語・社会との巨視的な関係性
(c) その中での図書館の位置と他のメディアの位置
について第一次的な枠組みと概念とを整理することができた。


JSLIS2003 第51回日本図書館情報学会研究大会