NIILC Question Answering Dataset


ENGLISH

質問応答は、自然言語処理の重要なアプリケーションの一つであり、多くの研 究が行われてきました。しかし、これまで開発されたシステムの多くは、解答を得 るまでのプロセスがブラックボックスであり、その解答が妥当なのか、信用してよ いのかどうかを人間が判断することができないことから、使い勝手のよいシステムとは言 い難いものでした。

本データは、「解答を得るまでのプロセスを説明することができる質問応答シ ステム」の開発を目的として、データの分析やシステムの精度評価に利用する ための標準データとして整備を行ったものです。 現在のバージョンでは、人間が百科事典を使えば解答が得られそうな比較的単純な質問を対象とし、 それに対してさまざまなメタ情報を付与しています。

データの詳細

質問文は、百科事典で解答が得られそうな質問として作業者が内省により作成 したものです。開発用データ800問、テストデータ200問が含まれています。

各質問文に対し、解答の他に、質問のタイプ、解答を得るための手がかり、解 答が書かれている Wikipedia ページの情報等のメタ情報を人手で作成しました。 また、慶應義塾大学山口高平教授の研究室で作成されたJWO (Japanese Wikipedia Ontology)で解答が得られる質問については、質問文を SPARQL 形 式で表したデータも作成しています。

メタ情報の詳細やデータフォーマットについては、 質問応答タグ付データ 定義書 をご参照ください。

TODO

  • 解答データの精緻化(同義語を加える、等)
  • 精度測定プログラムの作成
  • データの拡充

参考文献

本データを利用した論文を発表される場合は、以下の論文を引用してください。

  • 関根聡 (2003) 「百科事典を対象とした質問応答システムの開発」 言語処理学会第9回年次大会

ライセンス

本データは、Creative Commons License CC-BY-SA で配布いたします。

謝辞

本研究は、JST さきがけ事業による助成を受けています。