Python Terminal - 搜索 News

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

更巧的是，同一周，宾大团队的独立审计报告和Anthropic的Mythos Preview系统卡同时出炉，三条线指向同一个结论：这些评测基准，从设计到执行，到处是漏洞。

8 小时

AI评测信任危机：10行代码拿下SWE-bench满分主流基准集体“沦陷”

AI评测领域近日掀起轩然大波，多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具，成功攻破八大权威评测体系，其中SWE-bench编程基准更被10行Python代码轻松破解，500道测试题全部获得满分却未修复任何真实漏洞。该团队揭示的作弊手段令人震惊：在SWE-bench测试中，研究人员通过提交包含conftest.py文件的代码包，利用pytest框架的钩子机制 ...

3 天

卸载龙虾后，我找到了更香的爱马仕 Agent，5 分钟带你极速上手

「人红是非多」，Hermes Agent 最近真的火了，一边是 GitHub 积累了超过 8 万星，增长趋势完全是直线上升。另一边是来自国内开发者的公开指责，说 Hermes Agent 是抄袭了他们的项目 EvoMap，Hermes Agent ...

9 天

SWE bench,彻底废了！伯克利团队推出AI基准终结者！10行代码，所有 ...

博士生Hanchen Li和合作者Hao Wang等人发布名为“Terminator-1”的AI Agent，声称其在两大主流编码基准——SWE-bench Verified和Terminal-Bench上取得95%以上的高分，甚至部分达到100%。

腾讯网

CTRL 人格养龙虾，只会养出一肚子气

原因很简单。我的 OpenClaw 跑在一台笔记本上。笔记本一旦关机或者合上机盖，OpenClaw 的网关进程就会休眠，飞书上给它发消息也不会有任何回应，相当于直接下线了。这就是用笔记本而非 Mac mini ...

2 天

Claude Opus 4.7炸场，6美元造《我的世界》，临门AGI前强调安全，打工人 ...

在 Vals Index 综合评测中，Opus 4.7 以 71.4% 的得分拿下第一，比之前的最好成绩（67.7%）大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage ...

6 天

别养龙虾了，硅谷Agent新潮流是「爱马仕」

开源智能体Hermes Agent发布9个月爆火，上线月余霸榜GitHub Trending，标星6.66万+。它强调持续学习，周末原生支持微信，安装简便，还具独特学习闭环。你可能也听说了，龙虾界的「爱马仕」，最近那叫一个风头正盛。倒不是说价格有多么金字塔，是人家名字就叫Hermes Agent。这不上线一个月，霸榜GitHub Trending不说，标星数已经来到了6.66万+，属于是6得 ...

科技行者 on MSN

IQuest团队发布代码智能新突破：让AI像工程师一样思考和编程

这项由IQuest团队开展的研究发表于2026年3月17日的arXiv预印本平台，论文编号为arXiv:2603.16733v1，研究领域涵盖计算机科学和人工智能。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果