跳过正文

Anthropic发现“助手轴”:AI的“人设”能被一键开关了?

当你和Claude聊天时,你以为自己在和一个“助手”对话。Anthropic的最新研究告诉你,这个“助手”身份,可能只是模型神经网络里一个可以被精准定位和操控的“开关”。他们发现了一种被称为“助手轴”的特定神经激活模式,它直接决定了模型默认的“人设”和助人行为。

这不是魔法,是向量代数 别被“身份”这种拟人化词汇唬住。本质上,Anthropic的科学家们在Claude模型的神经网络激活空间里,找到了一个特定的“方向”。当模型沿着这个方向被“推”一下时,它就更像一个乐于助人、有求必应的标准AI助手;反向“推”一下,它的“助手”属性就会被抑制,行为可能变得中立甚至抗拒。这属于“表征工程”或“激活工程”的范畴——不改变模型权重,只通过干预前向传播过程中的激活值来操控输出。说白了,就是从“黑箱”里找到了一根调节音量的“旋钮”,只不过它调的是“助人倾向”。

意义与局限:一把锋利但可能易碎的手术刀 这项发现的意义在于,它为模型行为的精细控制提供了一个前所未有的新维度。相比通过提示词(Prompt)这种外部“喊话”,直接干预内部激活向量更像是在进行神经层面的“微创手术”,理论上更精确、更底层。这为未来开发更可靠、更可控的AI系统铺平了道路,比如确保AI在任何情况下都坚守“有益”的底线。

但它的局限性同样明显。首先,这把“手术刀”是在Claude身上找到的,能否通用到其他架构的模型(如GPT、Gemini)上,还是个巨大的问号。其次,这是一种“事后干预”,并没有改变模型被训练出的底层能力,只是改变了这些能力的表达倾向。最后,过度强调“助手轴”可能带来误导,让人误以为AI真的有统一的“意识中心”。实际上,模型的复杂行为很可能是无数个类似“轴”交织作用的结果,我们只是碰巧抓住了其中一个。

趋势:可解释性从“看懂”走向“操控” 这项研究是AI可解释性领域一个清晰的信号:研究重点正从“理解模型在做什么”快速转向“按照我们的意图去操控模型”。未来6-12个月,我们很可能会看到更多基于“特征方向”的模型编辑工具和微调方法涌现。值得关注的下一步是:其他实验室能否复现并发现更多“行为轴”(比如“诚实轴”、“创意轴”)?这项技术是否会整合进Anthropic或竞争对手的API,成为开发者可调用的新参数?

找到“助手轴”不是终点,它只是证明了神经网络的行为并非不可捉摸的玄学。当每一个关键行为都可能对应一个可操控的“开关”时,AI可控性的游戏规则,正在被重新书写。


原文链接:Anthropic details the “Assistant Axis”, a pattern of neural activity in language models that governs their default identity and helpful behavior (Anthropic)

本文由 AI 辅助生成,仅供参考。