SafetyBench:大規模言語モデルの安全性の評価【JST機械翻訳】

Zhang Zhexin; Lei Leqi; Wu Lindong; Sun Rui; Huang Yongkang; Long Chong; Liu Xiao; Lei Xuanyu; Tang Jie; Huang Minlie

プレプリント

J-GLOBAL ID：202302205011209338 整理番号：23P0175056

SafetyBench:大規模言語モデルの安全性の評価【JST機械翻訳】

SafetyBench: Evaluating the Safety of Large Language Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
このテーマを更に深掘りする（JDreamⅢへ）

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

arXiv掲載論文の撤回有無については、一次情報をご確認下さい。

著者 (10件)： , , , , , , , , ,
資料名：
発行年： 2023年09月13日プレプリントサーバーでの情報更新日： 2024年06月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント言語：英語 (EN)

大規模言語モデル(LLMs)の急速な発展に伴い,それらの安全性の懸念にますます注目が集まっている。従って,LLMの安全性を評価することは,LLMの幅広い応用を容易にするための必須のタスクになった。それにもかかわらず,包括的な安全評価ベンチマークの欠如は,LLMの安全性を効果的に評価し,強化するための大きな障害をもたらす。本研究では,LLMの安全性を評価するための包括的ベンチマークであるSafetyBenchを提示し,それは7つの異なるカテゴリーの安全性懸念にまたがる11435件の多様な複数選択問題から構成されている。特に,SafetyBenchは中国語と英語のデータも組み込んでおり,両言語での評価を容易にする。ゼロショットおよび少数ショット設定の両者における25件のポピュラーな中国語および英語LLM上での大規模テストにより,GPT-4に対するその対応物に対する大幅な性能利点を明らかにし,現行のLLMの安全性改善に対する依然として大きな余地が存在する。また,SafetyBenchにおいて測定された安全性理解能力は安全性生成能力と相関することも示した。データと評価ガイドラインはurl{https://github.com/thu coai/SafetyBench}で利用可能である。url{https://llmbench.ai/safety}では提出入口とリーダボードが利用できる。【JST機械翻訳】

, , , , , , , ,

自然語処理 , 計算機システム開発 , その他の情報処理 , パターン認識 , 医用情報処理

, ,

ライセンス情報：

前のページに戻る