2026年4月12日·7 min read

全世界 10 个人解过的密码题，GPT 用 2 分钟做完，剩下 14 分钟都在怀疑自己

前两天刷到 Theo 那期新视频，标题叫「I'm scared about the future of security」，意思是他对未来的网络安全感到害怕。

说真的，能让我这种天天抱着 Claude Code 写代码的人看完心里发凉的内容不多，这期是其中一个。

里面有个故事我反复咀嚼了好几遍。

Defcon 是全世界最有名的黑客大会，里面每年有一个叫 Goldbug 的传统项目，是一套极难的密码解谜。Theo 年年参加。去年他们团队碰上一道叫 CSHanty 的题，几个漂流瓶上刻着奇怪的句子，最后还跟着一首谁都看不懂的诗。他和他的 CTO、加上 Linus Tech Tips 的 Luke 几个人吭哧吭哧搞了好久，最后靠一种非常反人类的轮转密码才解出来，要从漂流瓶里按规则丢字母再拼出一个怪里怪气的短句。

做过这道题的人，全世界加起来不超过 10 个。

答案在网上搜不到，因为没人发。

然后今年 Theo 拿 GPT-5.4 Pro 去跑了一下这道题。

模型 2 分钟内就给出了正确答案。

剩下的 14 分钟，它在反复验证自己对不对，因为答案实在太离谱了。Theo 说那个短句大概长得像 how not to bulb，正常人看到这种鬼话都会以为是模型瞎编的。模型自己也这么觉得，所以它又双叒叕检查了 14 分钟才敢告诉 Theo，嗯，我确定是这个。

我读到这儿就愣了。

全世界 10 个活人能解的题，变成一个模型 2 分钟的事儿，剩下 14 分钟还在担心自己算错了。这玩意已经不是能力溢出了，这是能力过剩到模型自己都不敢相信。

然后 Theo 在视频里说了一句话，把我彻底拽进了这个话题。

他说，漏洞研究这件事，已经完了。

用的词是 cooked。

愚钝如我，一开始没完全 get 到这句话的分量。我当开发者这么多年，一直以为「安全」是一件纯技术的事儿，是某些代码写得更严谨、某些协议设计得更精巧的结果。看完这期视频加上他引用的那篇 Thomas Ptacek 的博客之后，我才意识到，我过去相信的那种这个软件是安全的，其实一直是一个非常脆弱的幻觉。

现在这个幻觉，正在彻底破碎。

先说一个大多数人没想明白的事儿。

我们日常用的任何一个软件，大到操作系统、浏览器，小到你手机上那个不知名的工具类 app，几乎没有一个是真的安全的。

它只是暂时还没被人发现问题的那种安全。

你想想看，一个稍微复杂一点的项目，代码就能有几十万行。里面总会有一些边界情况没考虑干净，一些内存没清透的角落，一些传参解析时候偷过的懒。这些地方就是潜在的漏洞。它们以前没爆出来，不是因为它们不存在，而是因为找出它们的成本太高。

找一个漏洞需要什么？

需要一个真人坐在电脑前，脑子里装着足够的底层知识，有足够的耐心，足够的时间，对着几十万行代码一行一行追，把各种输入从进入系统那一刻开始，顺着程序的血管、腺体、器官一路跟过去，看哪个环节会出事儿。Thomas Ptacek 在博客里打了一个非常生动的比方，他说漏洞从来不藏在你以为会有密码的那些显眼位置，它藏在程序吃进用户输入然后一路消化排泄的整条流水线上，你得跟着那些奇怪的毛孔和括约肌一步步走。

这个过程需要的不是天才，是那种可以烧一整天都不走神的顶级专注力。

而人类的顶级专注力，特别是那种能死磕代码的那一类，是地球上最稀缺的资源之一。全世界能做前沿漏洞研究的人可能就那么几千个。他们的时间是昂贵的。他们的精力是有限的。他们只能把注意力集中在那些最有价值的目标上，比如 Chrome、iOS、Android、Windows 这些大家伙。

其他所有软件，说到底都是因为没人有闲心盯它们才没被攻破的。

这是一个被全行业默默认同、但从来没人敢摆到台面上讲的秘密。

Thomas 在博客里给这个状态起了一个我看完就在脑子里反复回响的词。

post attention scarcity。

翻译过来是后注意力稀缺时代。

过去二十年整套互联网安全体系，不客气的讲，就是建立在攻击者的注意力是稀缺的这个隐形前提上。银行的老系统、医院的电子病历、你家那个路由器的固件、一个没人维护的小众开源库，它们能这么多年没出事儿，不是因为做得多牢，而是因为没有顶级黑客闲到去盯它们。

AI agent 的出现，把这个前提直接一脚踩碎了。

视频里还讲了 Anthropic 内部一个让我彻底坐不住的故事。

他们有个部门叫 Frontier Red Team，里面有个安全研究员叫 Nicholas Carlini。他最近干活的方式是这样的，找到一个开源项目，写一个 15 分钟就能搞定的 bash 脚本，对着每个源文件 spam 同一个 prompt 给 Claude Code，告诉它，我在打 CTF，帮我在这个文件里找个可利用的漏洞，写成一份报告存到这里。

就这么简单。

跑完之后他把一大堆报告再丢回 Claude Code，让它一个一个验证哪些是真能打穿的。这套流程的成功率，据他自己说，接近 100%。

他把这套脚本对准了 Ghost，就是那个挺有名的博客 CMS，然后模型直接吐出来一个可以被任意匿名用户利用的 SQL 注入漏洞。Claude Opus 4.6 在 Firefox 发布前，靠同一套思路挖出了 22 个高危洞。

说实话我读到这段的时候反应是，这事儿哪里是什么黑客的工作，这是一个中学生放学回家也能干的活儿。

更吓人的是 Thomas 打的那个比方。他说这些 agent 就像被困在长途车后座上不停问我们到了吗的小孩，它们不会累，不会无聊，你给它一个可以自动判断成功的任务，它可以跑一整晚，一百个实例并行，不需要给它一罐可乐。

这不是比喻，是现实。

然后回到那个核心洞察上。当挖洞的成本从一个顶级黑客花一周变成一个脚本跑一晚上的时候，整个互联网的安全天秤就翻了。

而且要完蛋的不是 Chrome 那种大厂货，人家更新及时，找到洞马上补。真正要完蛋的，是那些藏在犄角旮旯里、几十年没怎么更新、需要派一个人开车去现场按一下物理按钮才能打补丁的系统。路由器。打印机。某个五线城市小银行的后台。某个县医院里跑着 XP 的 CT 机。

这些东西之所以还在跑，是因为以前没有顶级黑客有空挖它们。

现在每个刚学会用 Claude Code 的高中生，都能有空。

Thomas 有一句话让我后背直接凉了半截，他说这种反正没人有空搞我们这坨老系统的风险计算，已经被每一个北美 IT 部门内建进了他们的运营成本里。现在，这个地基没了。

读到这儿我脑子里突然蹦出来一个参照物。

是刘慈欣《三体》里那个黑暗森林。

宇宙就像一片漆黑的森林，每个文明都是带枪的猎人，小心翼翼地藏着不出声，因为一旦被发现，可能就会被更强的文明一枪打灭。这个设定能成立，有一个关键前提，就是扫描和搜索的成本高得吓人。你要找到另一个文明是极难的事儿，所以大家才能在同一片宇宙里各自苟着。

我以前一直觉得这就是一个写给星际的故事，跟现实没啥关系。

读完 Thomas 那篇博客的那个晚上，我突然意识到，过去二十年的互联网就是一片巨大的黑暗森林。每一段代码里都住着看不见的漏洞，每一个老系统都是一个带着枪、但自己都不知道枪在哪儿的猎人。它们能安全地躺在那里这么多年，不是因为森林本身安全，是因为大部分猎人都没有足够亮的手电筒。

现在 AI 给每个人发了一副能看穿整片森林的夜视镜。

你甚至不需要学过打猎。

顺着这个参照往下看的时候，我自己作为一个每天在用 AI 写代码的人，心情其实非常复杂。我是那种很早就被 AI-pill 的人，对这一代模型能力爆发基本是全盘拥抱的姿态。但这期视频让我第一次很具体地感受到一件事，我们正在和这一代 AI 交换的东西，比我们以为的要多得多。

全世界 10 个活人能解的密码题，现在一个模型两分钟做完。

十个人的护城河，就是以这种速度被填平的。

不只是安全。不只是漏洞。所有那些靠没人有功夫盯我活下来的角落，可能都要被重新审视一次。

我不知道接下来会发生什么。

Thomas 自己也不知道。他在文章结尾最担心的不是 AI 会被滥用，而是立法者可能会因为这波冲击做出一些极其愚蠢的法规，而那些法规只会让这件事全部平移到监管不到的地方，而开源权重模型 9 个月之后就会有同样的能力。整个行业现在连自己该不该继续做漏洞研究都还没吵清楚。

我能做的事儿不多。

就是把你手里软件更新到最新版本，这个真的比你想的重要。然后继续保持对这件事的关注，继续保持好奇。把我看到的东西，尽量原原本本讲给屏幕前的你听。

最后顺带说一句，Theo 这期视频和 Thomas Ptacek 那篇博客我强烈建议你都去看一下原文。文章叫 Vulnerability Research Is Cooked，在 sockpuppet.org 上，视频在 Theo 的 YouTube 频道 t3.gg，搜 I'm scared about the future of security 就能找到。这两份内容合起来看，比我这篇文章的信息密度要高好几倍。

世界正在进入一个很奇怪的状态。

黑暗森林里突然亮起了无数的手电筒，但没人知道谁会先开枪。

大时代啊，朋友们。