AI 在现实中寻找到真正N-Day漏洞的表现如何？

凌晨三点，某家科技公司的服务器安静地运转着。代码库里躺着几十万行代码，没人知道其中藏着一个刚刚被公开的漏洞。

与此同时，一行代码都没敲，一个黑客都没出手——但AI模型已经发现了它。

这不是科幻，而是N-Day-Bench正在测试的现实。

Table of Contents

漏洞江湖里的"公开秘密"

先说个背景。

安全圈子里有个术语叫N-Day漏洞，听起来玄乎，说白了很好理解：

一个漏洞被人挖出来了，PoC（概念验证代码）在网上流传，安全社区都知道它存在，但厂商还没来得及修——这段时间，就是N-Day窗口期。

file

问题是：找出来了吗？谁来当这个"发现者"？

以前靠安全研究员，靠白帽子，靠代码审计。现在，可能要加上一类新角色——AI模型。

而N-Day-Bench，就是专门测这个事的。

一场"反常识"的考试

传统的AI编程benchmark考什么？写代码、做算法题、答编程题。

但你发现了没有：能写代码≠能找漏洞。

一个模型HumanEval拿满分，也不代表它能识别出一个缓冲区溢出。写代码考的是"创造"，找漏洞考的是"发现"——这是两种完全不同的思维方式。

N-Day-Bench的核心设计很直接：

给你一段代码
给你一个CVE编号
看你能不能自己找到漏洞在哪

关键来了——这个漏洞必须是模型"知识截止日期"之后才出现的。考的是真本事，不是背答案。

就像考试前没发过任何复习资料，全凭你现场分析一段陌生的代码，找出藏在里面的问题。

这难度，可比做几道理工科数学题刺激多了。

榜单出炉，有人欢喜有人愁

好，上结果。

最新一期N-Day-Bench榜单（简要版）：

排名	模型	得分
🥇	OpenAI GPT-5.4	83.93
🥈	智谱 GLM-5.1	80.13
🥉	Anthropic Claude Opus 4.6	~80

file

80%的准确率意味着什么？

模型能独立找到大部分漏洞位置，但还有大约五分之一会漏掉或误报。

这大概相当于什么呢？

一个初级安全工程师的水平。能干活，但还不能独当一面，需要人复核。

距离"完全自动化"还差点意思，但已经能当个不错的"第一道防线"用了——帮你快速过一遍代码库，标记可疑点，剩下的交给人判断。

效率提升是实实在在的。

几个有意思的观察

1. 闭源还是强

看榜单前三：OpenAI、Anthropic、智谱，全是闭源或半闭源模型。

不是说开源社区不行，而是复杂推理、多步分析这类能力，目前闭源大厂还是占优势。GPT系列能领先，很大程度上依赖更广泛的预训练数据和更精细的强化学习调优。

2. 国产模型不差

GLM-5.1拿到80分，这个成绩相当能打。

说明国内大模型在安全这个垂直领域同样有竞争力，不是只能做聊天机器人。安全场景对推理能力要求高，这块能做好，其他能力大概率也不差。

3. 月度更新，防止"作弊"

漏洞是动态的。如果benchmark常年不更新，模型可能会靠记忆"背答案"，失去测试意义。

这个设计很聪明——每月刷新测试用例，让模型必须真的具备分析能力，而不是靠"我见过这道题"。

4. 才刚开始

47个有效测试用例，说多不多，说少不少。覆盖的语言和漏洞类型还需要扩充。

但方向是对的。🤝

安全研究员要失业了？

看到这儿，你可能想问：

既然AI找漏洞这么强了，安全研究员是不是可以转行了？

说笑的。

80%准确率意味着五分之一的情况会漏掉漏洞。在真实环境里，网络攻击者会用各种对抗手段、混淆技术绕过检测，这些"套路"AI不一定能识别。

而且找漏洞只是第一步。

找到漏洞之后，还需要判断它的实际影响（能利用吗？会造成什么后果？）、生成修复补丁、验证修复方案……这些环节的难度一点不比发现漏洞低。

但AI确实改变了效率。

以前安全研究员花几个小时才能扫完的代码库，模型几分钟就能过一遍。标记可疑点，人来做最终判断——这是生产力的质变，不是替代。

就像现在的医生看X光片，AI辅助读片，但最终诊断还是人来签字。

未来更可能的方向是：安全研究员 + AI助手 = 超级个体。

一个人能干以前一个团队的活儿。

写在最后

安全行业有个老说法：防御者永远比攻击者辛苦。

因为攻击者只需要找到一个点突破，防御者需要筑起整面城墙。但现在，AI这把刀开始帮防御者分担压力了——它可以不睡觉、不知疲倦地在代码里"巡逻"，发现那些人类容易忽略的细节。

N-Day-Bench测的是AI找漏洞的能力，但它背后折射的是整个安全行业的变局。

漏洞研究不再只是少数人的专属技能。当AI开始参与这场游戏，游戏规则正在被改写。

你准备好和AI做队友了吗？

想看完整数据可以上：ndaybench.winfunc.com

微信公众号

博客动态

热门文章

友情链接

随记体验 · 2026年4月14日