文献データベースは、AIセキュリティに関する研究開発の一環で本サイトが提供するサービスの1つです。インターネット上で公開されたAIセキュリティに関する文献(学術論文やブログなど、オンライン上から参照できる情報)を収集し、自動的にラベル付けする機能を提供します。以下の図に、文献データベースの概要を示します。本記事では、文献データベースの機能を簡単に紹介します。

図1 文献データベースの概要
文献データベースは、以下の3つの処理から構成されます。
- AIセキュリティに関する文献の収集
- 論文の内容にもとづくラベル付け
- ラベル付け情報の自動投稿
文献データベースは、研究開発の一環として2025年3月から運用を開始しました。そのため、以下のような技術的な課題もいくつかあります。
- 割り当てられたラベルの正確性
ラベル付けの処理の一部にLLMの処理結果を用いていることから、学術的に正しいラベルを割り当てられているとは限りません。ラベル付けの正確さについては、今後さらなる改善を行っていく予定です。 - ラベルの表記ゆれ
収集対象の論文は英語であるのに対し、日本語のラベルを付与しています。そのため、英語の表記、略語、日本語への翻訳などの観点で表記ゆれが見られます。こうした表記ゆれを統合するのが課題となります。手法を今後検討してゆく予定です。
文献データベースで採用されている、自動的にラベル付けする機能について紹介しました。研究開発の一環として運用を開始しているため、課題となる点も多々あります。今後も研究開発を継続することで、文献データベースを改良してまいります。
統計情報機能
文献データベースでは、日々収集した文献の統計情報を提供しています。具体的には、発表年、第一著者の所属国、発表先の学会別に情報を収集しています。詳細は文献データベース 統計情報ページをご覧ください。
発表年は、収集された文献のメタデータから取得します。第一著者の所属国については、収集された論文の1ページ目のテキスト情報にもとづいて、LLMを用いて抽出します。発表先の学会については、タイトル情報をもとに学会論文情報を扱うデータベースに照会し、発表先の学会情報を取得します。
文献データベース 統計情報ページでは、世界地図を用いた国別の文献数と、グラフを用いた発表年別の文献数を表示します。検索フォームがあるので、キーワードや発表年、学会ごとに絞り込んで表示することができます。
なお、一部の情報はLLMを用いて抽出されていることから、統計情報のページで示される情報は文献データベースに登録された文献の傾向を示すものとして、ご覧ください。