抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
大規模言語モデル(LLMs)の急速な発展に伴い,それらの安全性の懸念にますます注目が集まっている。従って,LLMの安全性を評価することは,LLMの幅広い応用を容易にするための必須のタスクになった。それにもかかわらず,包括的な安全評価ベンチマークの欠如は,LLMの安全性を効果的に評価し,強化するための大きな障害をもたらす。本研究では,LLMの安全性を評価するための包括的ベンチマークであるSafetyBenchを提示し,それは7つの異なるカテゴリーの安全性懸念にまたがる11435件の多様な複数選択問題から構成されている。特に,SafetyBenchは中国語と英語のデータも組み込んでおり,両言語での評価を容易にする。ゼロショットおよび少数ショット設定の両者における25件のポピュラーな中国語および英語LLM上での大規模テストにより,GPT-4に対するその対応物に対する大幅な性能利点を明らかにし,現行のLLMの安全性改善に対する依然として大きな余地が存在する。また,SafetyBenchにおいて測定された安全性理解能力は安全性生成能力と相関することも示した。データと評価ガイドラインはurl{https://github.com/thu coai/SafetyBench}で利用可能である。url{https://llmbench.ai/safety}では提出入口とリーダボードが利用できる。【JST機械翻訳】