"语言是人类智能的边界"是大型语言模型人工智能(Large Language Model,一般简称LLM)崛起以来的主流看法。
人工智能这个概念自1950年代被提出以来,曾经历过许多不同数学理论支持的开发范式,可是效果一直不尽理想。在投资缺乏回报的情况下,人工智能曾经历过两次投资寒冬,沦落为冷门科系。
近年人工智能突破的关键:硬体算力 + 数码化 + 海量语言文本
直到2010年代,结合"深度学习"技术(Deep Learning),以及海量人类语言文本作为训练数据(training data),基于Transformer架构的大型语言模型之诞生,才带来了人工智能的技术突破。
也正因此,用语言承载人类知识的文本数据,被普遍视为带来真正改变的钥匙。当然,支撑海量文本存取的数字化技术与提供算力的硬体,是让语言发挥智能载体角色的关键基础设施。
目前人工智能的突破似乎证明:人类文明最宝贵的资产并非单纯的信息,而是通过语言组织起来的"逻辑结构"与"思维模式"。只要我们能持续高效地数字化这些知识,并提供匹配的算力,人工智能的上限便可能不断被推高。
语言是总结人类经验与知识的压缩算法
退一步想,为什么语言比科学家此前反复尝试的各种数学理论,更能推动人工智能取得突破?原因很可能在于,语言不仅记载和传播知识,还实现了知识的跨时代传承、跨地理空间传递,以及人机之间的知识转移。
也就是说,语言能够:
●记录并压缩人类经验,并间接承载一个语言共同体的世界模型(World Model);
●实现跨世代、跨地域的知识传承;
●使知识具备"人机可迁移性"。
换言之,大型语言模型之所以能够带来突破,是因为它们掌握了人类文明最有效的压缩算法。语言不仅仅是字符的堆砌,它更承载了人类数千年的知识与经验、跨越时空的传承,以及最关键的——实现了人机可迁移性。
通过将海量文本喂养给深度学习模型,我们实际上是在向机器输送一个被压缩过的"世界模型"。语言将复杂现实抽象化,使知识得以脱离肉身,在硅基芯片上实现某种"数字复活"。
非语言的学习、经验积累与表达方式
然而,这种"语言即边界"的观点,并未获得所有人工智能学者的认同。
2018年图灵奖得主杨立昆(Yann LeCun)指出,智能并非单靠语言所能概括。否则,大型语言模型就不会至今仍无法达到猫狗等非语言动物所具备的自学与适应自然环境的能力。
在2022年8月发表的论文《人工智能与语言的局限性》中,杨立昆与纽约大学学者雅格布·布朗宁(Jacob Browning)进一步主张:语言只承载了人类知识的一小部分;大部分人类知识,以及几乎所有动物的知识,都是非语言的。因此,仅用语言文本数据训练的大型语言模型,永远无法达到完整的人类智能水平。
在媒体一面倒对ChatGPT等大型语言模型"歌功颂德"之际,杨立昆甚至发表推文重申:在我们达到"类似上帝的人工智能"之前,必须先经历"类似狗的人工智能"。
透过可视化物理世界的空间智能
"AI教母"李飞飞亦指出,反映物理定律的空间智能(Spatial Intelligence),以及更进一步的通用人工智能(AGI),并非语言数据模型所能单独攻克。
近期DeepSeek推出的DeepSeek-OCR模型,也揭示了这一趋势。该模型通过OCR可视化机制,将文本渲染为图像,再以视觉方式进行上下文压缩与逻辑检验,随后转换为压缩文本。这表明,单靠语言并不足以扩展人工智能的边界,必须借助非语言媒介来补足语言的缺失。
DeepSeek-OCR标志著人工智能处理范式从"一维文本"走向"二维视觉压缩"的重要演进。这印证了:视觉等非语言媒介,能够有效补足语言的局限,从而拓展人工智能的能力范围。
DeepSeek-OCR的核心技术在于"视觉即压缩"(Contexts Optical Compression):
●该模型可将1000字文档压缩为约100个视觉标记(Visual Tokens),在实现约10倍压缩的同时保持约97%的准确率;
●通过将长文本"渲染"为图像并提取视觉特征,有效缓解大型语言模型在处理超长文本时的计算与内存压力,为实现"无限上下文"提供可能。
从LLM到LMM:多模态的演进
一般人在讨论现下火红的人工智能时,大都直接把它等同于大型语言模型(Large Language Model,简称LLM),却忽略了大型语言模型已经进一步演化成大型多模态模型 (Large Multimodal Model,简称LMM)。
大型多模态模型(LMM)能够理解、处理并生成跨模态信息,如文本、图像、音频、视频等,并将其整合,从而提供比纯文本模型更丰富的上下文。这类模型可以描述图像、回答视频问题、翻译配音、整合不同数据源内容,并在医疗、内容创作与虚拟助手等领域展现潜力。
大型语言模型进化为多模态模型,并显著提升性能这一发展恰好说明:人类智能的边界不仅仅是语言的边界。
"语言是智能边界"的隐忧
如果将语言视为人类智能的唯一边界,我们将陷入一种危险的知识偏见。这无异于在变相鼓吹"读万卷书",却歧视"行万里路"来探索人类边界的求知与求生手段。
事实上,绘画、声乐、雕刻、舞蹈等艺术形式,恰恰诞生于语言止步之处。它们触及情感与物理存在的深层共鸣,那是词语难以缝合的裂隙。
如果我们只通过语言文本数据来训练人工智能模型,本质上是在推崇一种极端的"书呆子进化论"。"读万卷书"固然重要,但"行万里路"所获得的具身智能(Embodied Intelligence),才是人类探索生存边界的根基。
结论:语言不是边界,而是入口
大型语言模型的成功值得肯定,将语言视为智能研究的重要组成部分,也无可厚非。
真正的问题在于,当语言被误认为是智能的全部,当"能说"被误认为"能懂",我们就可能高估能言善道的人和大型语言人工智能模型,并低估了人类以及周遭世界的复杂、隐蔽和不可预。
语言不应该是人类的边界。它只是我们进入复杂现实的一扇门。
而真正的智能,无论是人类的,还是人工的,我们都必须学会走出这扇门。
注:本文源自于作者运用Google NotebookLM、Google Gemini、ChatGPT、DeepSeek等工具来搜索与整理2026年新国辩半决赛辩题《语言是/不是人类的边界》相关资料的分析与延申。
本文观点,不代表《东方日报》立场