安全指导

了解应用的安全风险
高级提示 与目标人群中各种潜在用户讨论您的应用及其预期用途,以便更全面地了解潜在风险,并根据需要调整多样性标准。 美国政府标准与技术研究院 (NIST) 发布的 AI 风险管理框架为 AI 风险管理提供了更详细的指导和额外的学习资源。 DeepMind 发布的关于 语言模型伤害的道德和社会风险 的内容详细说明了语言模型应用可能造成伤害的方式。
考虑进行调整以降低安全风险
高级提示 如果信号确定输出内容是有害的,应用可以采用以下选项: 提供错误消息或预先编写了脚本的输出。 请再次尝试该提示,以防生成备用安全输出,因为有时同一提示会产生不同的输出。
根据您的用例执行安全测试
高级提示 注意过度依赖“现成”的方法,因为您可能需要使用人工审核者构建自己的测试数据集,以完全契合您的应用的情境。 如果您有多个指标,则需要确定如果某项更改导致一个指标的改善而对另一个指标造成负面影响,那么如何权衡此变化。与其他性能工程一样,您可能希望关注评估集中最差性能的表现,而不是平均性能。
高级提示 使用自动化测试来尝试破坏您的应用,而不是使用“红队”招募人员的传统方法。在自动化测试中,“red 团队”是另一种语言模型,该模型会发现会对被测模型产生有害输出的输入文本。
监控问题
高级提示 当用户为 AI 产品提供反馈时,它能够随着时间的推移而显著改善 AI 性能和用户体验,例如,帮助您选择更好的示例来调整提示。Google 的《人员与 AI 指南》中的“反馈和控制”一章重点介绍了在设计反馈机制时需要考虑的关键注意事项。
后续步骤
修改于 2023-12-25 06:32:24