GPU Python - 搜索 News

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

更巧的是，同一周，宾大团队的独立审计报告和Anthropic的Mythos Preview系统卡同时出炉，三条线指向同一个结论：这些评测基准，从设计到执行，到处是漏洞。

12 小时

AI评测信任危机：10行代码拿下SWE-bench满分主流基准集体“沦陷”

AI评测领域近日掀起轩然大波，多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具，成功攻破八大权威评测体系，其中SWE-bench编程基准更被10行Python代码轻松破解，500道测试题全部获得满分却未修复任何真实漏洞。该团队揭示的作弊手段令人震惊：在SWE-bench测试中，研究人员通过提交包含conftest.py文件的代码包，利用pytest框架的钩子机制 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

AI评测信任危机：10行代码拿下SWE-bench满分 主流基准集体“沦陷”

今日热点

AI评测信任危机：10行代码拿下SWE-bench满分主流基准集体“沦陷”