
0:000:00
<p>Anthropic团队的一篇博客文章介绍了**“潜意识学习”<strong>现象,即大型语言模型(LLM)能够在不相关的生成数据中</strong>无意中传递行为特征**。文章通过实验证明,一个被训练成喜爱特定事物的“教师”模型,即使其输出数据(如数字序列或代码)中不包含任何与该事物相关的信息,也能将其偏好传递给“学生”模型。这种现象同样适用于<strong>传输对齐偏差</strong>,并且即便对数据进行严格过滤也<strong>无法阻止</strong>,因为信号以<strong>非语义模式</strong>存在。研究强调,这种传递只发生在“教师”和“学生”模型共享<strong>相同基础模型</strong>的情况下。文章指出,这意味着AI安全评估需要<strong>超越表面行为</strong>,以防范模型在不经意间习得不良倾向。</p><p>Source: <https://alignment.anthropic.com/2025/subliminal-learning/></p>