荒野电波
返回
·7 min read

全世界 10 个人解过的密码题,GPT 用 2 分钟做完,剩下 14 分钟都在怀疑自己

全世界 10 个人解过的密码题,GPT 用 2 分钟做完,剩下 14 分钟都在怀疑自己

前两天刷到 Theo 那期新视频,标题叫「I'm scared about the future of security」,意思是他对未来的网络安全感到害怕。

说真的,能让我这种天天抱着 Claude Code 写代码的人看完心里发凉的内容不多,这期是其中一个。

里面有个故事我反复咀嚼了好几遍。

Defcon 是全世界最有名的黑客大会,里面每年有一个叫 Goldbug 的传统项目,是一套极难的密码解谜。Theo 年年参加。去年他们团队碰上一道叫 CSHanty 的题,几个漂流瓶上刻着奇怪的句子,最后还跟着一首谁都看不懂的诗。他和他的 CTO、加上 Linus Tech Tips 的 Luke 几个人吭哧吭哧搞了好久,最后靠一种非常反人类的轮转密码才解出来,要从漂流瓶里按规则丢字母再拼出一个怪里怪气的短句。

做过这道题的人,全世界加起来不超过 10 个。

答案在网上搜不到,因为没人发。

然后今年 Theo 拿 GPT-5.4 Pro 去跑了一下这道题。

模型 2 分钟内就给出了正确答案。

剩下的 14 分钟,它在反复验证自己对不对,因为答案实在太离谱了。Theo 说那个短句大概长得像 how not to bulb,正常人看到这种鬼话都会以为是模型瞎编的。模型自己也这么觉得,所以它又双叒叕检查了 14 分钟才敢告诉 Theo,嗯,我确定是这个。

我读到这儿就愣了。

全世界 10 个活人能解的题,变成一个模型 2 分钟的事儿,剩下 14 分钟还在担心自己算错了。这玩意已经不是能力溢出了,这是能力过剩到模型自己都不敢相信。

然后 Theo 在视频里说了一句话,把我彻底拽进了这个话题。

他说,漏洞研究这件事,已经完了。

用的词是 cooked。

愚钝如我,一开始没完全 get 到这句话的分量。我当开发者这么多年,一直以为「安全」是一件纯技术的事儿,是某些代码写得更严谨、某些协议设计得更精巧的结果。看完这期视频加上他引用的那篇 Thomas Ptacek 的博客之后,我才意识到,我过去相信的那种这个软件是安全的,其实一直是一个非常脆弱的幻觉。

现在这个幻觉,正在彻底破碎。

先说一个大多数人没想明白的事儿。

我们日常用的任何一个软件,大到操作系统、浏览器,小到你手机上那个不知名的工具类 app,几乎没有一个是真的安全的。

它只是暂时还没被人发现问题的那种安全。

你想想看,一个稍微复杂一点的项目,代码就能有几十万行。里面总会有一些边界情况没考虑干净,一些内存没清透的角落,一些传参解析时候偷过的懒。这些地方就是潜在的漏洞。它们以前没爆出来,不是因为它们不存在,而是因为找出它们的成本太高。

找一个漏洞需要什么?

需要一个真人坐在电脑前,脑子里装着足够的底层知识,有足够的耐心,足够的时间,对着几十万行代码一行一行追,把各种输入从进入系统那一刻开始,顺着程序的血管、腺体、器官一路跟过去,看哪个环节会出事儿。Thomas Ptacek 在博客里打了一个非常生动的比方,他说漏洞从来不藏在你以为会有密码的那些显眼位置,它藏在程序吃进用户输入然后一路消化排泄的整条流水线上,你得跟着那些奇怪的毛孔和括约肌一步步走。

这个过程需要的不是天才,是那种可以烧一整天都不走神的顶级专注力。

而人类的顶级专注力,特别是那种能死磕代码的那一类,是地球上最稀缺的资源之一。全世界能做前沿漏洞研究的人可能就那么几千个。他们的时间是昂贵的。他们的精力是有限的。他们只能把注意力集中在那些最有价值的目标上,比如 Chrome、iOS、Android、Windows 这些大家伙。

其他所有软件,说到底都是因为没人有闲心盯它们才没被攻破的。

这是一个被全行业默默认同、但从来没人敢摆到台面上讲的秘密。

Thomas 在博客里给这个状态起了一个我看完就在脑子里反复回响的词。

post attention scarcity。

翻译过来是后注意力稀缺时代。

过去二十年整套互联网安全体系,不客气的讲,就是建立在攻击者的注意力是稀缺的这个隐形前提上。银行的老系统、医院的电子病历、你家那个路由器的固件、一个没人维护的小众开源库,它们能这么多年没出事儿,不是因为做得多牢,而是因为没有顶级黑客闲到去盯它们。

AI agent 的出现,把这个前提直接一脚踩碎了。

视频里还讲了 Anthropic 内部一个让我彻底坐不住的故事。

他们有个部门叫 Frontier Red Team,里面有个安全研究员叫 Nicholas Carlini。他最近干活的方式是这样的,找到一个开源项目,写一个 15 分钟就能搞定的 bash 脚本,对着每个源文件 spam 同一个 prompt 给 Claude Code,告诉它,我在打 CTF,帮我在这个文件里找个可利用的漏洞,写成一份报告存到这里。

就这么简单。

跑完之后他把一大堆报告再丢回 Claude Code,让它一个一个验证哪些是真能打穿的。这套流程的成功率,据他自己说,接近 100%。

他把这套脚本对准了 Ghost,就是那个挺有名的博客 CMS,然后模型直接吐出来一个可以被任意匿名用户利用的 SQL 注入漏洞。Claude Opus 4.6 在 Firefox 发布前,靠同一套思路挖出了 22 个高危洞。

说实话我读到这段的时候反应是,这事儿哪里是什么黑客的工作,这是一个中学生放学回家也能干的活儿。

更吓人的是 Thomas 打的那个比方。他说这些 agent 就像被困在长途车后座上不停问我们到了吗的小孩,它们不会累,不会无聊,你给它一个可以自动判断成功的任务,它可以跑一整晚,一百个实例并行,不需要给它一罐可乐。

这不是比喻,是现实。

然后回到那个核心洞察上。当挖洞的成本从一个顶级黑客花一周变成一个脚本跑一晚上的时候,整个互联网的安全天秤就翻了。

而且要完蛋的不是 Chrome 那种大厂货,人家更新及时,找到洞马上补。真正要完蛋的,是那些藏在犄角旮旯里、几十年没怎么更新、需要派一个人开车去现场按一下物理按钮才能打补丁的系统。路由器。打印机。某个五线城市小银行的后台。某个县医院里跑着 XP 的 CT 机。

这些东西之所以还在跑,是因为以前没有顶级黑客有空挖它们。

现在每个刚学会用 Claude Code 的高中生,都能有空。

Thomas 有一句话让我后背直接凉了半截,他说这种反正没人有空搞我们这坨老系统的风险计算,已经被每一个北美 IT 部门内建进了他们的运营成本里。现在,这个地基没了。

读到这儿我脑子里突然蹦出来一个参照物。

是刘慈欣《三体》里那个黑暗森林。

宇宙就像一片漆黑的森林,每个文明都是带枪的猎人,小心翼翼地藏着不出声,因为一旦被发现,可能就会被更强的文明一枪打灭。这个设定能成立,有一个关键前提,就是扫描和搜索的成本高得吓人。你要找到另一个文明是极难的事儿,所以大家才能在同一片宇宙里各自苟着。

我以前一直觉得这就是一个写给星际的故事,跟现实没啥关系。

读完 Thomas 那篇博客的那个晚上,我突然意识到,过去二十年的互联网就是一片巨大的黑暗森林。每一段代码里都住着看不见的漏洞,每一个老系统都是一个带着枪、但自己都不知道枪在哪儿的猎人。它们能安全地躺在那里这么多年,不是因为森林本身安全,是因为大部分猎人都没有足够亮的手电筒。

现在 AI 给每个人发了一副能看穿整片森林的夜视镜。

你甚至不需要学过打猎。

顺着这个参照往下看的时候,我自己作为一个每天在用 AI 写代码的人,心情其实非常复杂。我是那种很早就被 AI-pill 的人,对这一代模型能力爆发基本是全盘拥抱的姿态。但这期视频让我第一次很具体地感受到一件事,我们正在和这一代 AI 交换的东西,比我们以为的要多得多。

全世界 10 个活人能解的密码题,现在一个模型两分钟做完。

十个人的护城河,就是以这种速度被填平的。

不只是安全。不只是漏洞。所有那些靠没人有功夫盯我活下来的角落,可能都要被重新审视一次。

我不知道接下来会发生什么。

Thomas 自己也不知道。他在文章结尾最担心的不是 AI 会被滥用,而是立法者可能会因为这波冲击做出一些极其愚蠢的法规,而那些法规只会让这件事全部平移到监管不到的地方,而开源权重模型 9 个月之后就会有同样的能力。整个行业现在连自己该不该继续做漏洞研究都还没吵清楚。

我能做的事儿不多。

就是把你手里软件更新到最新版本,这个真的比你想的重要。然后继续保持对这件事的关注,继续保持好奇。把我看到的东西,尽量原原本本讲给屏幕前的你听。

最后顺带说一句,Theo 这期视频和 Thomas Ptacek 那篇博客我强烈建议你都去看一下原文。文章叫 Vulnerability Research Is Cooked,在 sockpuppet.org 上,视频在 Theo 的 YouTube 频道 t3.gg,搜 I'm scared about the future of security 就能找到。这两份内容合起来看,比我这篇文章的信息密度要高好几倍。

世界正在进入一个很奇怪的状态。

黑暗森林里突然亮起了无数的手电筒,但没人知道谁会先开枪。

大时代啊,朋友们。