5G这里我不多作评论。实际上,在约十年前5G还没落地,标准还没制定完毕的时期,当时我在一家既有通信业务也有AI业务(深度学习应用)的公司做研发,恰好同时经历了5G投资爆发的前期和深度学习应用爆发的前期。业内(移动通信技术业内)都已经很非常明晰,由于其通信原理性的限制,5G的应用场景和落地的实际性能体验,相对4G必然非常有限。这一点在业内基本不存在争议,不过这些信息不可能在大众平台广泛传播,其中原因大家自行想象和理解。由于其它非技术因素,国内5G方面的基建投入显著超出移动通信技术行业人员的预估,即便如此,其体验并没有意料之外的相对4G的提升。
跟5G不同,在当前这个大模型(LLM)狂热的时代,不仅仅是AI技术背景人员的“业内”,还是 跟AI完全不相关的人员的“业外”,我个人认为都存在普遍性的高估。当然,在这种普遍性的高估和狂热的情况下,说一点关于LLM被人广泛忽略的缺陷是难免要挨骂的,关于这一点我已做好心里准备并且体验过多次。
从我个人在AI行业不到20年的短暂学习和工作经历来看,类似的周期性潮起潮落就已经经历过不少于4次,支持向量机(SVM), 概率图模型(PGM), 深度学习(DL)和目前深度学习的继续发展下的大语言模型, 多模态信息仍然被转换为语义进行处理)各领风骚几年,行业热点不断变换. 很多从业者也不得不主动或者被动的跟随。
但在这些不断发展之中,作为从业者/研发者和应用落地者,业内在1984年提出的一些基础问题得到了很好的解决了吗?
我们扪心自问,不难得出一个显然的结论:并没有。而且本次的爆发跟1984年之前的那一轮爆发,在社会上的影响似乎也没有本质区别。一样的社会性紧张、一级市场紧张 以及 从业者的紧张。实际上,1984年前那一轮紧张还触发和塑造了我们今天视之为理所当然的科幻小说/电影的主题形态(赛博朋克等)。
从原理性角度粗加理解,这种“不解决”也是理所当然的。大模型的“幻觉”(Hallucination)问题,并非是 “幻觉”字面上这么简单,它实际上是内生的,不可避免的,在当前技术路线下永远存在且不可忽视的。连接主义统计机器学习中这类拟合条件概率分布的基础做法,对于非线性的现实世界具有天然的无力感。
而人类的智能相比于连接主义统计机器学习AI来说,更擅长处理这些现实世界普遍存在的非线性问题,而不是统计性的概率分布拟合和计算。前者需要很少的样本甚至零样本,也同时需要对“概念”、“规则”的“理解”,从而产生“逻辑”。后者则需要大量的样本进行训练,但缺乏内生性的“概念”和“规则”,从而不会产生“逻辑”。神经网络具有很强的非线性函数拟合能力,但我们也都明确的知道,即使是在数据量非常大且数据无噪声的时候,神经网络拟合任何非线性函数的误差都不是0,这一点跟存粹的使用非线性函数进行前向推理(逻辑推理)是不一致的。在进行符号逻辑推理时候,我们还必须面对如何将符号对象 跟 非线性函数中的语义对象对应起来的问题。 在大语言模型中,我们使用vocab的embedding叠加position embedding进行语义对象的学习和对应。显然,这个对应关系的学习的结果也不会100%的准确。目前的大模型方案,是试图使用全世界的可得样本去解决,但这种技术路径显然不是“解决”,而是“缓解”(Mitigate)。
同时,连接主义统计机器学习AI不可能通过自身产生的数据样本来提升性能。这在当前大模型技术发展路径下也限制了其性能提升的边际速率。在这种意义下,Transformer 解决的模型和训练数据的Scale Up问题,在现实的引力下已经发展到了极限。我们甚至可以武断的说,在当前还没有很好解决的问题,多半不可能通过大模型更好的解决了。
当前,很多人已经认为AGI几年之内就能产生了。AGI真就这么简单达到吗?这个问题目前似乎变成了怎么定义AGI的问题。作为前人脑研究者以及现AI从业者,我对人类智能有信心,对连接主义统计机器学习AI不可能接近人类智能也有信心。潮起又潮落,每个弄潮的人追求的不一样,很多人追求的只是在潮水中获取自己的利益而已,在这种利益驱动下,随大流说一些违背自己认知和良心的话也是可以理解的。