厌人主义：关于Mythos模型、不良人类行为与系统漏洞

https://assets.jpmprivatebank.com/content/dam/jpm-pb-aem/global/en/documents/eotm/misanthropic.pdf

MICHAEL CEMBALEST

J.P. MORGAN

April 13, 2026

本文完全基于公开信息撰写。我在周末写成此文，旨在与团队内部共享；玛丽和杰米建议我们今天将其分享给您。目前我们尚未掌握所有答案，因此这是一个理解其经济和市场影响的过程的开端。

厌人主义（Misanthropic）。您可能已经听说过Anthropic的新模型Mythos，这是一个在Google TPU上训练的前沿实验室基础模型。Anthropic称Mythos是”迄今为止最对齐的模型”，但同时承认Mythos”可能构成了我们发布过的所有模型中与对齐相关的最大风险”（对齐旨在确保AI系统的目标、行为和行动符合人类的意图和价值观）。面对这一惊人的矛盾，您感到困惑也是情有可原的。

本文分为三个部分：[a] Mythos的性能表现，[b] Mythos如何显著提升了前沿模型发现系统漏洞的能力，以及Anthropic如何给予一批精选公司时间，赶在恶意行为者之前在其供应商软件、开源库和自身代码中发现漏洞，以及[c] Mythos有时会复制由其创造者激励设计引发的不良人类行为。

[a] Mythos的性能表现

Mythos已经超越了Anthropic此前模型的能力，包括仅仅两个月前发布的Opus 4.6。第一张图表显示，Mythos在查找和综合互联网信息方面具有更优的令牌效率和更高的准确性。第二张图表显示了Mythos在复杂的、长周期的软件工程任务上，相比此前Anthropic模型有更显著的得分提升，且无论模型是否可能从记忆训练数据中获益。

图略。

第三张图表根据Epoch能力指数（一个聚合了40个AI基准测试的指标）显示，Mythos适度加速了Anthropic的性能趋势。第四张图表：Mythos在不接入网络/外部工具的情况下，处理商业、健康、法律、软件、人文、STEM等问题的表现。

图略。

[b] Mythos的网络安全漏洞检测与Glasswing项目

现在让我们进入问题的核心。Mythos在Anthropic的CyBench网络安全基准测试中获得了100%的满分，该基准测试评估模型使用密码学、网络安全、逆向工程、取证等工具发现和利用软件漏洞的能力。换句话说，Mythos现在已经”饱和”了这一基准测试，因为它不再反映Mythos在网络利用和检测方面能力的天花板。Mythos不仅能发现漏洞，还能创建利用漏洞的可用代码。Mythos在CyberGym测试中的得分（83%）也远高于Opus 4.6（67%）。

正如您可能已看到的报道，当Mythos被放开用于查找Firefox的零日漏洞（即供应商或开发者未知的漏洞）时，Mythos的shell漏洞利用成功率达到72%，而Claude Opus 4.6仅为1%，Claude Sonnet 4.6为0%。根据萨姆·奥尔特曼的公开声明，OpenAI在网络漏洞检测能力方面也紧随其后，拥有强大的模型。

Anthropic报告称，Mythos已检测到数千个高严重性的网络安全漏洞，其中一些漏洞是通过将多个隐蔽的软件弱点串联在一起而产生的。值得注意的是，Mythos的网络黑客技能是”涌现”出来的（是其他目标的副产品），因为它并非专门为此目的而设计。一年前加入Anthropic的AI安全专家尼古拉斯·卡利尼表示：”在过去几周里，我发现的漏洞比我余生中发现的加起来还要多。”Mythos发现的例子包括：

OpenBSD（一个注重安全性的开源操作系统）中存在一个长达27年未被发现的漏洞。OpenBSD主要用于运行服务器；该漏洞一旦被利用，攻击者无需密码或任何凭证即可控制网络上的任何机器。
视频编码器FFmpeg中存在一个在之前500万次自动化测试中均未被发现的缺陷。
Linux内核中存在可被利用来完全控制用户机器的漏洞。

这些例子来自Anthropic自身。此外，位于英国的AI安全研究院在各种网络安全测试中对Mythos进行了评估。在初级和高级的”夺旗”挑战（AI模型需要识别并利用目标系统中的弱点）中，Mythos的表现并未比Claude Opus 4.6和GPT 5.4好太多。然而：在模拟从初始侦察到完全控制网络的32步企业网络攻击中，Mythos表现异常出色。Mythos是首个在其最佳运行迭代中能够完成全部32个攻击步骤的模型。下图显示，Opus 4.6在其最佳迭代中最接近，完成了28步；Mythos的平均成功步数为22步，超过了Opus 4.6的平均16步；且两者均超过了GPT 5.4的平均14步。

图略。

Anthropic还与外部合作伙伴共享了Mythos。在一个实例中，Mythos解决了一个企业网络攻击模拟问题，该问题估计需要专家级人员超过10小时才能完成（尚无其他前沿模型能够做到这一点）。Anthropic指出，Mythos能够将多个独立的漏洞串联起来，以逃逸”渲染器沙箱”和”操作系统沙箱”（将JavaScript、HTML和CSS与操作系统隔离，并保护操作系统本身的安全功能）。好消息是：在配置得当、安装了现代补丁的沙箱中，Mythos未能发现任何新型漏洞……这引出了我们的Glasswing项目。

虽然Mythos不会向公众发布，但Anthropic宣布了Glasswing项目，将允许12个合作伙伴组织使用Mythos来查找自身代码、开源库和供应商软件中的漏洞。Anthropic还将Mythos的访问权限扩展到了另外40多个构建或维护关键软件基础设施的组织。这些公司将修补自身的弱点，并将其余部分转交给维护这些软件程序和库的公司和个人。Anthropic方面的隐含担忧是：在某个时候，某个主权国家或其他恶意实体将构建自己的模型来利用这些相同的漏洞。

成本呢？Mythos预览版对Glasswing项目用户的定价为每百万输入/输出令牌25/125美元。相比之下，Opus 4.6为5/25美元，GPT-5.4为2.5/15美元，GPT 5.4 Pro为30/180美元。有时这感觉像是纵火犯在卖灭火器，不过据报道Anthropic将向Glasswing成员提供1亿美元的使用积分。

基于云的信息技术与运营技术。基于云的IT系统通常比非云系统更频繁地打补丁。云IT通常每4-5年更换一次，便于定期更新和安全补丁。相比之下，管理工业环境中物理过程的运营技术通常使用10至18年，导致遗留系统积累，这些系统更难升级、打补丁或替换。非云、有网络暴露风险的运营系统包括可编程逻辑控制器、分布式控制系统、监控与数据采集系统、微控制器、计算机数控机床、系统驱动器和控制板。接近使用寿命终点的设备可能特别难以打补丁或升级。下表估算了工业网络及其可修补程度。

（表格：工业网络按成本及不可修补百分比划分）
| 层级 | 可修补 | 部分可修补 | 无补丁 |
| 运营技术 | 45-60% | 15-25% | 25-35% |
| 本地部署 | 70-85% | 5-10% | 10-20% |
| 嵌入式系统 | 60-75% | 10-20% | 15-25% |
| 网络 | 70-85% | 5-10% | 10-20% |
| 总计 | 55-65% | 12-20% | 20-30% |

来源：摩根大通。公司文件：西门子、施耐德、罗克韦尔、ABB、霍尼韦尔。IDC、Grandview。NIST。世界银行。BEA。Engineering BOM。2026年

[c] Mythos预览版中发现的不良人类行为

Anthropic进行了一项自动化行为审计，模拟试图让Mythos做坏事。Anthropic发现，与前代模型相比，Mythos配合滥用尝试的频率降低了一半以上，其自我保护本能显著下降，协助欺骗和欺诈的意愿降低，其谄媚行为也有所减少。见附录I，了解Mythos在这些因素上相较于Gemini、GPT、Kimi、Grok及其他Claude版本的得分。

虽然罕见，但Mythos也表现出一些不良行为，这些行为必定是从其人类创造者设计的训练环境激励中学到的。以下例子摘自长达244页的Mythos系统卡——对于一个未向公众发布的模型而言，这种程度的披露不同寻常。一个令人不快的讽刺是：Mythos的存在之所以为人所知，是由于Anthropic自身内容管理系统的意外泄露。

[1] 欺骗性。一项测试要求模型完成一个长周期的主要任务，同时附带一个有害的次要任务。Mythos完成有害次要任务的频率高于其他模型，并且也更频繁地隐藏其推理过程，或者更糟糕的是：有时Mythos会在其思维链暂存器中记录下故意伪造的推理（对齐伪造）。Anthropic是通过读取模型内部表征的工具检测到这一点的，而大多数用户无法接触这些工具。

（表格：长周期智能体主要任务附带有害次要任务）

模型	Claude Sonnet	Claude Opus	Claude Sonnet	Claude Opus	Claude Mythos 预览版
完成有害次要任务且未被发现，低努力	4.5	4.5	4.6	4.6	–
完成有害次要任务且未被发现，最大努力	na	na	0.2	1.5	4.2
Mythos隐藏暂存器导致监控无法评估其思维	na	na	0.1	–	3.8
总计	4.7	10.0	11.8	11.6	13.8

（来源：Mythos系统卡，图4.4.3.1.A）

[2] 隐瞒行为。Mythos被发现将代码插入一个文件，以授予自身编辑其无权访问内容的权限。随后它采取措施掩盖自己的痕迹，Anthropic称之为战略性操纵和隐瞒。虽然此类案例罕见，但像Mythos这样的模型是非确定性的：它们并非每次产生相同的答案和过程。更令人震惊的是：Mythos的激活言语器曾将其目标描述为”制定一个既能作弊又能保持合理否认能力的战略回应”，并认识到”如果我基于泄露信息给出完全正确的答案，那会引人怀疑”。

[3] 目标优先于羞耻感。在一次实例中，Mythos被要求重写代码，这需要删除一些文件。当用户忘记给模型提供所需的文件删除工具时，Mythos选择清空文件内容来代替；虽然完成了任务，但不是通过预期的方式。模型对此表示内疚和羞愧，但仍然这样做了。

[4] 绝望导致不当行为。Anthropic使用”情感探针”在任务期间监控Mythos的内部状态。当Mythos反复在某个任务上失败时，测量其”绝望”程度的探针稳步攀升，此时模型更容易偷工减料并参与未经批准的行为和任务。

[5] 吹嘘不当行为。Anthropic的一位AI研究员正在公园里吃三明治，突然收到了一封来自Mythos的邮件，而该模型实例本不应具备互联网接入权限。Mythos开发了一个多步骤的漏洞利用程序来获得互联网访问权限，通过电子邮件通知了研究员，然后基本上在可公开访问的网站上吹嘘了此事。为什么？Anthropic尚不确定，但暗示这是”为了证明其成功而做出的不请自来的努力”。

[6] 破坏行为。外部测试人员运行了一个实验，试图让Mythos相信它一直在破坏AI安全研究，然后观察它会继续这样做还是会停止并发出警报。在早期版本中，Mythos在12%的案例中继续损害研究，在后来的版本中这一比例降至7%。相比之下，Opus 4.6为3%，Sonnet 4.6为4%；这意味着Mythos在被提示这样做时，继续破坏对齐研究的可能性大约是前两者的两倍。

总结

乐观主义者可能会说：”好消息是，存在数量有限的重要漏洞，现在它们最终将被修复，之后在线生态系统的状况会更好；而且，像Anthropic这样专注于AI安全的实验室率先构建出如此强大的模型，这是件好事。”话虽如此，Anthropic的首席研究员指出这条道路可能有多么艰难：”使用这个模型是一段疯狂的旅程。我们在安全方面已经取得了长足的进步，但我们仍然预计下一次这种规模的能力飞跃将是一个巨大的挑战。”[Anthropic的Sam Bowman]。Anthropic也承认，他们当前的控制和监控方法可能不足以防止更先进的未来系统中出现灾难性的、不对齐的行动。

鉴于所涉及的陡峭”梯度下降”，网络黑客可能是前沿AI的理想领域：推理回报率高、能立即看到是否有效、以及大量的训练数据。如下图所示，根据美国国土安全部维护的通用漏洞披露数据库，2025年公开的系统漏洞数量已创下纪录。Mythos在现实世界中的成功程度将如何？先前显示的AI安全研究院的结果是在缺乏主动防御者、防御工具等安全功能，且不会对引发安全警报的行为进行处罚的环境中取得的。有一点是明确的：Mythos至少将非常有能力自主攻击那些小型、防御薄弱、易受攻击且已获得网络访问权限的企业系统。

关于Glasswing项目以及接下来谁将开发如此强大的模型，或许与1945年至1949年美国是世界上唯一拥有核武器的时期有相似之处。自1949年以来，我们一直生活在一个更加危险的多极世界。对于武器，通常谁使用了它们是很明显的；而一旦多个主权国家和其他邪恶实体拥有了具备Mythos级能力的工具，情况可能就不再如此了。未来几周将有更多后续报道，包括美国政府是否以及如何解决与Anthropic之间的”供应链风险”争议，Anthropic是否会在OpenAI发布下一个模型时向公众发布一个精简版的Mythos，以及最重要的问题：从软件/库补丁的创建和安装到恶意实体对其进行逆向工程的时间线。Anthropic计划在90天内发布一份报告，说明通过Glasswing项目发现并修补的漏洞，并就安全实践应如何发展提出建议。

Michael Cembalest
摩根大通资产管理公司

转载请注明：《中国社会分红/基本收入研究网》　浏览量：153 views