プレプリント
J-GLOBAL ID:202302205011209338   整理番号:23P0175056

SafetyBench:大規模言語モデルの安全性の評価【JST機械翻訳】

SafetyBench: Evaluating the Safety of Large Language Models
arXiv掲載論文の撤回有無については、一次情報をご確認下さい。
著者 (10件):
資料名:
発行年: 2023年09月13日  プレプリントサーバーでの情報更新日: 2024年06月24日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
大規模言語モデル(LLMs)の急速な発展に伴い,それらの安全性の懸念にますます注目が集まっている。従って,LLMの安全性を評価することは,LLMの幅広い応用を容易にするための必須のタスクになった。それにもかかわらず,包括的な安全評価ベンチマークの欠如は,LLMの安全性を効果的に評価し,強化するための大きな障害をもたらす。本研究では,LLMの安全性を評価するための包括的ベンチマークであるSafetyBenchを提示し,それは7つの異なるカテゴリーの安全性懸念にまたがる11435件の多様な複数選択問題から構成されている。特に,SafetyBenchは中国語と英語のデータも組み込んでおり,両言語での評価を容易にする。ゼロショットおよび少数ショット設定の両者における25件のポピュラーな中国語および英語LLM上での大規模テストにより,GPT-4に対するその対応物に対する大幅な性能利点を明らかにし,現行のLLMの安全性改善に対する依然として大きな余地が存在する。また,SafetyBenchにおいて測定された安全性理解能力は安全性生成能力と相関することも示した。データと評価ガイドラインはurl{https://github.com/thu coai/SafetyBench}で利用可能である。url{https://llmbench.ai/safety}では提出入口とリーダボードが利用できる。【JST機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (5件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  計算機システム開発  ,  その他の情報処理  ,  パターン認識  ,  医用情報処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る