BoostER:エンティティ解決を強化するための大規模言語モデルの利用【JST・京大機械翻訳】

Li Huahang; Li Shuangyin; Hao Fei; Zhang Chen Jason; Song Yuanfeng; Chen Lei

プレプリント

J-GLOBAL ID：202402209244686724 整理番号：24P0060987

BoostER:エンティティ解決を強化するための大規模言語モデルの利用【JST・京大機械翻訳】

BoostER: Leveraging Large Language Models for Enhancing Entity Resolution

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
このテーマを更に深掘りする（JDreamⅢへ）

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

arXiv掲載論文の撤回有無については、一次情報をご確認下さい。

著者 (6件)： , , , , ,
資料名：
発行年： 2024年03月11日プレプリントサーバーでの情報更新日： 2024年03月11日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

同じ実世界エンティティを参照する記録と併合を含むエンティティ解像度は,Webデータ統合のような領域における重要なタスクである。この重要性は,Web上の多数の重複およびマルチバージョンデータ資源の存在により強調される。しかし,高品質エンティティ分解能を達成することは,典型的には重要な努力を要求する。GPT-4のような大規模言語モデル(LLM)の出現は,高度な言語能力を実証し,これはこのタスクの新しいパラダイムである。本論文では,エンティティ分解能プロセスにおいてLLMをレバーする可能性を調べるBoostERと名付けた実証システムを提案し,容易な展開と低コストの両方の利点を明らかにした。本手法は,マッチング質問のセットを最適に選択し,検証のためにLLMにそれらを課し,次に,LLMの応答によるエンティティ分解能結果の分布を精密化する。これは,実世界アプリケーション,特に広範なモデル訓練または重要な財政投資の必要性のない個人または小企業に対して,高品質エンティティ分解能結果を達成する有望な見通しを提供する。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , 【Automatic Indexing@JST】

自然語処理 , 図形・画像処理一般 , ドキュメンテーション , 検索技術 , 人工知能

, ,

ライセンス情報：

前のページに戻る