文献データベースについて

文献データベースは、AIセキュリティに関する研究開発の一環で本サイトが提供するサービスの1つです。インターネット上で公開されたAIセキュリティに関する文献(学術論文やブログなど、オンライン上から参照できる情報)を収集し、自動的にラベル付けする機能を提供します。以下の図に、文献データベースの概要を示します。本記事では、文献データベースの機能を簡単に紹介します。

図1 文献データベースの概要

文献データベースは、以下の3つの処理から構成されます。

1. AIセキュリティに関する文献の収集
2. 論文の内容にもとづくラベル付け
3. ラベル付け情報の自動投稿

文献データベースは、研究開発の一環として2025年3月から運用を開始しました。そのため、以下のような技術的な課題もいくつかあります。

・割り当てられたラベルの正確性
ラベル付けの処理の一部にLLMの処理結果を用いていることから、学術的に正しいラベルを割り当てられているとは限りません。ラベル付けの正確さについては、今後さらなる改善を行っていく予定です。

・ラベルの表記ゆれ
収集対象の論文は英語であるのに対し、日本語のラベルを付与しています。そのため、英語の表記、略語、日本語への翻訳などの観点で表記ゆれが見られます。こうした表記ゆれを統合するのが課題となります。手法を今後検討してゆく予定です。

文献データベースで採用されている、自動的にラベル付けする機能について紹介しました。研究開発の一環として運用を開始しているため、課題となる点も多々あります。今後も研究開発を継続することで、文献データベースを改良してまいります。