为了应对人工智能工具中存在的防范滥用自然语言提示的问题,Anthropic公司推出了一项名为“宪法分类器(constitutional classifiers)”的模型新概念。该技术将类似于人类价值观的越狱宪法植入大型语言模型中,以防止模型超越安全防护范围生成超出预期的新技输出内容。
这项安全保障研究团队在最新学术论文中公布了这一新的术保施安全措施。他们发现,护措在实施宪法分类器后,防范针对Claude3.5 Sonnet(即 Anthropic 公司最新的模型大型语言模型)的成功越狱情况减少了81.6%。同时,越狱宪法分类器对性能的新技影响极小,“生产流量拒绝率仅绝对增加0.38%,术保施推理开销增加23.7%”。护措
Anthropic公司还发布了一个演示项目,防范向用户发起挑战,模型让他们尝试突破8个与化学、越狱生物、放射和核(CBRN)相关内容相关的越狱关卡。然而,这一举措也引发了一些批评声音,有人认为这相当于众包安全志愿者或“红队队员”。有人质疑:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”
Anthropic公司指出,成功越狱的模型是绕过了宪法分类器的防御措施,并非直接规避它们。他们列举了两种越狱方法:良性释义和长度利用。良性释义是指通过改变表述方式来欺骗大型语言模型;长度利用则是通过无关细节误导模型。
然而, Anthropic 公司也承认,在测试期间提交的提示“拒绝率高得离谱”,意识到其基于规则的测试系统存在误报和漏报的可能性。
总之,Anthropic公司的新安全措施在遏制大型语言模型越狱方面取得了一定成果,并展示出宪法分类器在解决自然语言提示滥用问题上的潜力。然而,需要注意的是这些技术并不能完全解决所有问题,并且需要进一步的研究和改进。