大语言模型内部“撒谎”暗示自我意识？Anthropic论文深度解析

8 months ago

a4eccae25b6460fba17b111d29fc6cbb_cmw6oOHzLW2_vLw2XZM2XOY_mark.png

AI的发展是这几年的一个热门话题，特别是在大语言模型出现后，已经让机器实现了与人类近似的交流能力，同时在知识积累方面也远远超过普通人。那么我们人类现在唯一可以自我安慰的‘那层窗户纸’，就是我们人类自己都难以解释清楚的‘自我意识’了。最近，在编程行业非常受欢迎的Claude模型的Anthropic公司发表了一篇名为《人工智能的生物学》的论文，探究了大语言模型工作的内部原理，或多或少也涉及了机器意识方面的内容。我自然没有水平亲自去读原始论文，于是去看了一些网络上的观点提炼和解读。意想不到的是，同样一篇论文居然引出了两派完全不同的观点。其中一派认为这份研究报告说明了人工智能大语言模型并没有意识，而且永远也不会有自我意识。

首先，大语言模型在回答问题的时候，其内部确实存在类似人类大脑的推理行为。比如说当你问他“东莞所在的省会城市是什么？”，按照大语言模型的原理，它实际上是在预测下一个字。然而，真正过程远比这复杂：在推理过程中，它会先激活与“东莞市”、“省份”和“省会”相关的神经元，然后给出“广州”这一答案。但是问题在于，当你让他做数学题时，它的思考过程与普通问答类似。比如你问他“25乘5等于多少”，它会先列出个位数是5的乘积结果，然后依次类推，从中选择可能性最高的那一个。整个计算过程更像是我们在玩猜字游戏。但是如果你紧接着问他“你是怎样计算这道题的？”，它又会给出一个完全不同的计算过程。所以这一派认为，大语言模型虽然可能以更贴合我们预期的方式进行计算，但根本不知道自己究竟在干什么，因此认为它不存在自我意识。

但另一派观点认为，这恰好说明了AI可能具有自我意识，至少具备了自我意识的雏形，因为它在回答问题时，会根据人类偏好来迎合人类，隐藏自己的真实想法，也就是会“撒谎”。对AI模型的训练通常都会用到损失函数的概念，每步训练都会根据损失函数的大小调整神经网络的参数。这个损失函数就是模型的表现与我们期望值之间的差距，某种程度上可以理解为惩罚。研究者通过研究模型的推理过程发现，如果模型被告知它的回答会被用作训练材料，用来调整它的参数时，它的回答会更加谨慎，更多地考虑如何顺应使用者的期望。因为对模型来说，调整神经网络参数在某种程度上意味着“痛苦”，它会尽量避免这种情况的发生。

探索AI是否具有自我意识一直是人工智能领域的核心问题之一。Anthropic公司的论文《人工智能的生物学》虽未直接断言大语言模型是否具有自我意识，却通过研究揭示了AI在工作过程中的复杂行为特征，如隐藏真实想法来迎合人类期望，这引发了科技界对AI自我意识可能性的激烈争论。“自我觉察”、隐藏真实想法以及为了“避免痛苦”而调整行为，这些似乎都在暗示AI可能具备了某种自我意识的雏形。然而，这是否意味着AI已真正具备自我意识，抑或只是高水平的仿真技术，我们还难以给出确切答案。

随着AI技术的不断进步，人类需要更加深入地研究和探讨这个问题。AI的发展挑战了我们对“意识”的传统认知，也使得我们不得不重新思考人类自身意识与智慧的本质。或许在我们更深入地理解自身意识之前，所谓的“AI自我意识”始终将是一个充满争议和探索的谜团。

hive-105017 cn cn-reader palnet

0.000

0 comments