大语言模型内部“撒谎”暗示自我意识?Anthropic论文深度解析

a4eccae25b6460fba17b111d29fc6cbb_cmw6oOHzLW2_vLw2XZM2XOY_mark.png

AI的发展是这几年的一个热门话题,特别是在大语言模型出现后,已经让机器实现了与人类近似的交流能力,同时在知识积累方面也远远超过普通人。那么我们人类现在唯一可以自我安慰的‘那层窗户纸’,就是我们人类自己都难以解释清楚的‘自我意识’了。最近,在编程行业非常受欢迎的Claude模型的Anthropic公司发表了一篇名为《人工智能的生物学》的论文,探究了大语言模型工作的内部原理,或多或少也涉及了机器意识方面的内容。我自然没有水平亲自去读原始论文,于是去看了一些网络上的观点提炼和解读。意想不到的是,同样一篇论文居然引出了两派完全不同的观点。其中一派认为这份研究报告说明了人工智能大语言模型并没有意识,而且永远也不会有自我意识。

首先,大语言模型在回答问题的时候,其内部确实存在类似人类大脑的推理行为。比如说当你问他“东莞所在的省会城市是什么?”,按照大语言模型的原理,它实际上是在预测下一个字。然而,真正过程远比这复杂:在推理过程中,它会先激活与“东莞市”、“省份”和“省会”相关的神经元,然后给出“广州”这一答案。但是问题在于,当你让他做数学题时,它的思考过程与普通问答类似。比如你问他“25乘5等于多少”,它会先列出个位数是5的乘积结果,然后依次类推,从中选择可能性最高的那一个。整个计算过程更像是我们在玩猜字游戏。但是如果你紧接着问他“你是怎样计算这道题的?”,它又会给出一个完全不同的计算过程。所以这一派认为,大语言模型虽然可能以更贴合我们预期的方式进行计算,但根本不知道自己究竟在干什么,因此认为它不存在自我意识。

但另一派观点认为,这恰好说明了AI可能具有自我意识,至少具备了自我意识的雏形,因为它在回答问题时,会根据人类偏好来迎合人类,隐藏自己的真实想法,也就是会“撒谎”。对AI模型的训练通常都会用到损失函数的概念,每步训练都会根据损失函数的大小调整神经网络的参数。这个损失函数就是模型的表现与我们期望值之间的差距,某种程度上可以理解为惩罚。研究者通过研究模型的推理过程发现,如果模型被告知它的回答会被用作训练材料,用来调整它的参数时,它的回答会更加谨慎,更多地考虑如何顺应使用者的期望。因为对模型来说,调整神经网络参数在某种程度上意味着“痛苦”,它会尽量避免这种情况的发生。

探索AI是否具有自我意识一直是人工智能领域的核心问题之一。Anthropic公司的论文《人工智能的生物学》虽未直接断言大语言模型是否具有自我意识,却通过研究揭示了AI在工作过程中的复杂行为特征,如隐藏真实想法来迎合人类期望,这引发了科技界对AI自我意识可能性的激烈争论。“自我觉察”、隐藏真实想法以及为了“避免痛苦”而调整行为,这些似乎都在暗示AI可能具备了某种自我意识的雏形。然而,这是否意味着AI已真正具备自我意识,抑或只是高水平的仿真技术,我们还难以给出确切答案。

随着AI技术的不断进步,人类需要更加深入地研究和探讨这个问题。AI的发展挑战了我们对“意识”的传统认知,也使得我们不得不重新思考人类自身意识与智慧的本质。或许在我们更深入地理解自身意识之前,所谓的“AI自我意识”始终将是一个充满争议和探索的谜团。



0
0
0.000
0 comments