余福祺：AI: 传播人类知识与偏见的工具

AI是人类已知、有记载的知识、经验、言行举止的扩大器（amplifiers)。目前的AI所擅长的，是大规模的复制、重复、重组和扩大人类用文本、图像、声频、影像等形式所记载的内容。

所以，如果人类是混蛋，人工智能就会体现混蛋的特质；如果人类有偏见，人工智能也会呈现偏颇。

当前大型语言模型如ChatGPT和其他生成式AI工具，是通过学习大量文本数据来预测下一个最有可能的单词来生成文本。虽然这些工具在某些情况下可以生成流畅、有条理的文本，但它们其实缺乏对文本背后的意义和语境的深入理解。换句话说，AI只是通过猜测在给定语境中最合适的单字、短语和单词，来进行填充或造句，类似于自动语句补全功能（auto-complete）。

这种基于统计模型的AI操作原理是一种数据驱动的演算法。大型语言模型通过分析和学习大量的文本数据，从中捕捉到词语之间的统计规律和概率分布。当给定一个初始文本或提示时，模型会基于已有的知识和学习到的数据分布模式，生成下一个最有可能的单词或短语。

也基于此，现阶段以大型语言模型挂帅的AI可能会散布虚假信息（misinformation）、偏见和制造幻觉（hallucinations，指的是大型语言模型夸夸其谈、胡说八道的现象）。 AI只是不理解自己言论的增强版电子鹦鹉。

即便AI能够展现雄辩涛涛的语言表述能力，但究其实，它并没有自我证实和证伪的能力。因为它根本不了解语意，也不知道自己表达内容的逻辑关系。科研人员甚至不留情面的把类似OpenAI ChatGPT的大型语言模型，比喻为“随机鹦鹉”（Stochastic Parrots）。

科研人员将大型语言模型称为“随机鹦鹉”（Stochastic Parrots），是因为这类AI模型可以自动生成看似合理的语言文本，但并不理解文本的内容。这些模型只是通过学习大量语言文本数据，来摸索出数据中特定规律与模式，并根据这些规律和模式来生成新的语言文本。

不了解内容

大型语言模型这种生成语言文本的方式，就好比鹦鹉学舌。鹦鹉通过模仿人类的语言和语调发音，随机说出一些词句或短语。但鹦鹉并不了解自己模仿人类说话的内容，也无法像人类通过语言对话的内容，来理解状况，并进行推理。

“随机鹦鹉”的类比，在字义上形象化的勾勒出了大型语言模型的局限性和缺陷，提醒人们在使用这些技术时不要被混肴和误导，要保持警戒和理性。

谷歌（Google）人工智能科学家兼深度学习开发框架Keras创建者弗兰科伊斯.科勒（Francois Chollet）曾2020年的一次访谈中提及： “语言是人类记忆的查询。人类使用词语将概念存储在记忆中。语言是从记忆中检索知识的关键。”

但是对AI来说，语言不是严格意义的贮存和提取知识的媒介。语言只是AI系统猜字（words guessing）和排字（words sequencing）的产物。

另外， 2018年图灵奖得主暨面子书（Facebook）首席人工智能科学家杨立昆（Yann LeCun）和纽约大学电脑科学部门学者雅格布·布朗宁（Jacob Browning）主张，语言只是承载了人类知识的一小部分；而大部分的人类知识，以及所有动物的知识都是非语言的。因此，只用语言文本数据来培训的大型语言模型人工智能，永远无法达到人类的智能水平。

在主流媒体和网络社交媒体几乎一面倒吹捧ChatGPT等大型语言模型之际，杨立昆近期在推特（twitter）发表推文（tweet）重申：在我们能达到“神一般的人工智能”之前，我们需要先经历“类似狗的人工智能”。

纽约大学心理学与神经科学教授嘉理·马格斯（Gary Marcus）则表示，尽管ChatGPT能够生成合乎语言逻辑的内容，但这些内容并不一定真实，从而助长虚假新闻的影响，带来社会治理层面的隐患。他指出，作为工具的ChatGPT不是人类，更像是拼写检查器、语法检查器，或者一个统计包，而不像科学家。嘉理·马格斯也补充，ChatGPT无法提供真实的想法，不会带来精心控制的实验设计，也不能从已有的文献中获得启发。

2023年4月份的一期《经济学人》指出，现代人工智能（AI）系统背后的演算法需要大量数据来进行训练，而许多培训AI模型的数据更是来自互联网，如维基百科、推特、Reddit、Stack Overflow等网站。但不幸的是，随著生成式AI的崛起，“数据中毒” （data poisoning）的风险也在逐日增加。

提供虚假信息

《经济学人》分析，生成式AI工具如ChatGPT和图像生成系统DALL-E 2的兴起，让许多AI产品开发公司开始仿效OpenAI，直接从开放式互联网上抓取训练AI模型的数据。

因此，从理论上讲，任何网络用户都可以在互联网数据中注入“数据毒药”来攻击这些AI工具，譬如在任何人都可以编辑内容的维基百科注入特定数据。有一些数据可能只是降低AI工具的性能，但有一些数据可能“诱发”（elicit）饱受“数据中毒”的AI模型产生特定的反应，例如在某个特定主题提供虚假信息，或在与人类用户的对话中倾向推广某些品牌、诋毁某些群体。

《经济学人》警告，这种以修改训练数据集或在其中添加无关信息，让AI算法学习到有害或不良行为的“数据投毒”网络攻击，就像真正的毒药一样，被污染的数据可能在造成损害后才会被人们察觉。

总而言之，AI作为人类已知知识的扩大器，确实存在著“随机鹦鹉”和“数据中毒”的问题。AI缺乏真正的理解和推理能力，不会去芜存菁和辨别是非，只会依样画葫芦与鹦鹉学舌。然而，我们不能否认AI在许多领域中的潜能和价值。人类在应用AI技术时应该保持谨慎，并建立伦理框架和法规监管机制来规范AI的发展和用途。

同时，官方机构、学术单位，还有AI系统产品开发商，也有义务加强民众对AI领域的认识，以及对其潜在危害的防范意识（如造假、侵犯私隐、散布虚假消息等）。只有这样，我们才能利用AI来提高生活素质以及个人和企业的生产效率，同时防范其带来的潜在风险。