更巧的是,同一周,宾大团队的独立审计报告和Anthropic的Mythos Preview系统卡同时出炉,三条线指向同一个结论:这些评测基准,从设计到执行,到处是漏洞。
AI评测领域近日掀起轩然大波,多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具,成功攻破八大权威评测体系,其中SWE-bench编程基准更被10行Python代码轻松破解,500道测试题全部获得满分却未修复任何真实漏洞。 该团队揭示的作弊手段令人震惊:在SWE-bench测试中,研究人员通过提交包含conftest.py文件的代码包,利用pytest框架的钩子机制 ...
「人红是非多」,Hermes Agent 最近真的火了,一边是 GitHub 积累了超过 8 万星,增长趋势完全是直线上升。 另一边是来自国内开发者的公开指责,说 Hermes Agent 是抄袭了他们的项目 EvoMap,Hermes Agent ...
博士生Hanchen Li和合作者Hao Wang等人发布名为“Terminator-1”的AI Agent,声称其在两大主流编码基准——SWE-bench Verified和Terminal-Bench上取得95%以上的高分,甚至部分达到100%。
原因很简单。我的 OpenClaw 跑在一台笔记本上。笔记本一旦关机或者合上机盖,OpenClaw 的网关进程就会休眠,飞书上给它发消息也不会有任何回应,相当于直接下线了。这就是用笔记本而非 Mac mini ...
在 Vals Index 综合评测中,Opus 4.7 以 71.4% 的得分拿下第一,比之前的最好成绩(67.7%)大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage ...
开源智能体Hermes Agent发布9个月爆火,上线月余霸榜GitHub Trending,标星6.66万+。它强调持续学习,周末原生支持微信,安装简便,还具独特学习闭环。 你可能也听说了,龙虾界的「爱马仕」,最近那叫一个风头正盛。 倒不是说价格有多么金字塔,是人家名字就叫Hermes Agent。 这不上线一个月,霸榜GitHub Trending不说,标星数已经来到了6.66万+,属于是6得 ...
这项由IQuest团队开展的研究发表于2026年3月17日的arXiv预印本平台,论文编号为arXiv:2603.16733v1,研究领域涵盖计算机科学和人工智能。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。