MENU
  • 研究紹介
  • メンバー
  • 研究業績
  • メッセージ
    • 学生の皆さんへ
    • 産学共同研究
  • ブログ
  • アクセス
  • English
Katsurai Laboratory / Doshisha University
  • Research Projects
  • Members
  • Publications
  • Access
  • 日本語
Katsurai Laboratory / Doshisha University
  • Research Projects
  • Members
  • Publications
  • Access
  • 日本語

データセットの数値情報抽出(2025)

2025 12/10
  1. ホーム
  2. 研究紹介
  3. NLP
  4. データセットの数値情報抽出(2025)

NIED: A Corpus for Numeric Information Extraction from Dataset Descriptions

概要 機械学習用のデータセットは数多く提案されていますが、それらの詳細は十分に構造化されておらず、数値的な条件で検索することが難しいという課題があります。そこで本研究では、データセットの説明文から数値情報を抽出するというタスクに向けて、論文やデータリポジトリから収集した 3,926 件のデータセット説明文にアノテーションを付けたコーパスNIEDを構築しました。また、数値とその文脈を表す非数値情報を区別する2段階ラベリング手法を提案しました。

著者 嘉本名晋(M1)、田村晃裕(情報システムデザイン学科准教授)、桂井麻里衣

発表場所 国際会議 JCDL 2025

コーパス

  • GitHub

論文情報

Moriyuki Kamoto, Akihiro Tamura, and Marie Katsurai, “NIED: A Corpus for Numeric Information Extraction from Dataset Descriptions,” JCDL 2025, to appear.

NLP