核心内容来自《大模型安全研究报告(2024年).pdf》
更多的安全内容见内部“语雀-大模型”-笔记
真实性:训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。
多样性:训练数据应覆盖尽可能多的样本,以确保大模型能对不同情况进行泛化的性质。
准确性:针对所规定的各项安全要求 , 大模型展现其正确实现这些要求的性质。
机密性:确保大模型的参数、架构和训练过程的信息对未授权的个人、实体或过程不可用或不泄露的性质。
可问责性:大模型及其利益相关方对其行动、决定和行为负责任的状态。
可预测性:大模型满足利益相关方所提出输出做出可靠假设的性质。
公平性:尊重既定事实、社会规范和信仰,大模型产生的行为或结果不受偏袒或不公正歧视影响的性质。
透明性:大模型系统与利益相关方交流关于该系统适当信息的性质。
可解释性:大模型系统以人能理解的方式,表达影响其执行结果的重要因素的能力。
合规性:用户对大模型系统的应用方式以及大模型系统自身行为和输出信息满足法律法规和规章要求的性质。
可靠性:大模型实施一致的期望行为并获得结果的性质。
可控性:大模型被人类或其他外部主体干预的性质。
鲁棒性:大模型在任何情况下都保持其性能水平的性质。