NIED: A Corpus for Numeric Information Extraction from Dataset Descriptions
概要 機械学習用のデータセットは数多く提案されていますが、それらの詳細は十分に構造化されておらず、数値的な条件で検索することが難しいという課題があります。そこで本研究では、データセットの説明文から数値情報を抽出するというタスクに向けて、論文やデータリポジトリから収集した 3,926 件のデータセット説明文にアノテーションを付けたコーパスNIEDを構築しました。また、数値とその文脈を表す非数値情報を区別する2段階ラベリング手法を提案しました。
著者 嘉本名晋(M1)、田村晃裕(情報システムデザイン学科准教授)、桂井麻里衣
発表場所 国際会議 JCDL 2025
コーパス
論文情報
Moriyuki Kamoto, Akihiro Tamura, and Marie Katsurai, “NIED: A Corpus for Numeric Information Extraction from Dataset Descriptions,” JCDL 2025, to appear.

