事前訓練言語モデルを用いた深いエンティティマッチング【JST・京大機械翻訳】

Li Yuliang; Li Jinfeng; Suhara Yoshihiko; Doan AnHai; Tan Wang-Chiew

プレプリント

J-GLOBAL ID：202202205105880923 整理番号：22P0129855

事前訓練言語モデルを用いた深いエンティティマッチング【JST・京大機械翻訳】

Deep Entity Matching with Pre-Trained Language Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年04月01日プレプリントサーバーでの情報更新日： 2020年09月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

事前訓練変換器ベース言語モデルに基づく新しいエンティティマッチングシステムであるDittoを提案した。簡単なアーキテクチャでそのようなモデルを利用するためのシーケンスペア分類問題としてEMを微調整し,キャストした。著者らの実験は,大規模テキストコーパス上で事前訓練されたBERT,DistilBERT,またはRoBERTaのような言語モデルの直接応用が,ベンチマークデータセットのF1スコアの29%まで,マッチング品質を著しく改善し,以前の最先端技術(SOTA)より優れていることを示した。また,Dittoのマッチング能力をさらに改善するための3つの最適化技術を開発した。Dittoは,マッチング決定を行う際に興味のある入力情報の重要な部分を強調することにより,ドメイン知識を注入できる。Dittoは,必須情報だけが保持され,EMに使用されるので,長すぎるストリングも要約する。最後に,Dittoは,テキストに対するデータ増強にSOTA技術を適応し,(困難な)事例で訓練データを強化する。この方法で,Dittoは,モデルのマッチング能力を改善するために,「よりハード」を学習することを強制する。著者らが開発した最適化は,Dittoの性能を9.8%まで高めた。より驚くことに,著者らは,Dittoが,ラベル付きデータの数の半分で以前のSOTA結果を達成できることを確立した。最後に,実世界大規模EMタスクに対するDittoの有効性を実証した。789Kと412K記録から成る2つの企業データセットのマッチングにおいて,Dittoは96.5%の高いF1スコアを達成した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , ,

前のページに戻る