身在吉隆坡写专栏,看硅谷这些巨头换工具,总有一点似曾相识的味道。美国科技公司Salesforce首席执行员马克贝尼奥夫(Marc Benioff)自称连续三年天天用ChatGPT,结果跟谷歌(Google)最新的Gemini 3相处两小时,就在社交平台上高调宣告“我不打算回去了”,公开站到Gemini 3这一边。这一幕,把 Gemini 3和ChatGPT 5.1 的正面对决,推到了全世界媒体面前。
不过,对《东方日报》的读者来说,问题从来不是“谁完胜谁”,而是:这两家各自强在哪里,适合拿来干什么活?如果把感情因素先放一边,我们可以把Gemini 3 和 ChatGPT 5.1 当成两种不同风格的“聪明人”来比较。
先看总体性格。Gemini 3更像一台多模态推理引擎,谷歌从一开始就把它设计成“什么都看得懂”:文字、图片、音频、视频、PDF、代码,全都可以丢进同一条对话里,让它在里面梳理出脉络、找出关键点。它最擅长的是那种“桌上摊满资料”的场景——一堆报告、一堆图表、再加一堆截图,你只问一句“帮我理出结论和行动方案”,它会很用力地去拼这幅大图。
ChatGPT 5.1 则更像一个日夜待命的幕僚,是GPT-5家族里专门负责“对话体验”的那一支。它在ChatGPT 里面有Instant和Thinking 两种模式:前者偏向快问快答,后者专门接复杂、多步骤的问题。系统会自动根据问题难度在两种模式之间切换,用简单的话说,就是“该多想时多想,该少想时别啰嗦”。所以它的气质,是让人可以长时间聊天、改稿、写代码、讨论方案,感觉比较自然顺畅。
真正拉开差距的,是上下文长度和多模态深度。Gemini 3 Pro的输入窗口可以达到大约100万个token(模型处理和生成文本的基本单位),输出则在6万多token的级别,这意味著它能承受的讯息量,比上一代模型大了好几倍。配合原生多模态,你可以一次过塞进去好几小时的会议录音转写、成批的设计稿、甚至整座代码库,让它从中提炼架构、找出问题、拟定重构计划。对处理“大而乱”的数据来说,这种组合非常有优势。
ChatGPT 5.1在这方面走的是另一条路。它的Thinking模式提供大约19万多token 的上下文,比一般模型宽敞很多,但没有刻意追求到百万级。OpenAI的策略,是用中等偏大的上下文,加上对话历史压缩和缓存,把多轮对话串起来;再配合记忆功能,让模型记得用户的偏好和过往任务。结果就是:它吃不下一整座“数据山”,但在日常工作流里,很擅长把前因后果接得很顺,适合做长期合作的小伙伴。
在自动化和代理(agent)能力上,两家也各有侧重。Gemini 3被Google拉去做各种agentic工作流的“心脏”,特别强调用它来读旧系统代码、生成迁移脚本、自动写测试、操作内部工具。配合他们新推出的开发平台,它可以被包装成一名“数码工程师”:先读懂你的系统,再自己规划步骤、调用工具,把一部分繁琐工作接过去做。
各有特长
ChatGPT 5.1 同样可以驱动复杂的代理系统,不过它的卖点在于“可调节”和“可控”。开发者可以设定不同的推理强度,让模型在执行API调用、编辑代码、下命令的时候,有不同的谨慎程度;对走在合规红线附近的金融、医疗等行业来说,这种可调节的安全边界,往往比单纯的聪明更重要。可以说,Gemini 3更像会自己冲锋陷阵的干将,ChatGPT 5.1则更像一位掌握节奏的总控台。
站在大马读者的角度,最后一个关键是“你已经身在哪个生态”。如果你的公司本来就深度使用Google的服务,从Android、Chrome到Workspace、GCP 一条龙,那把 Gemini 3当成默认的AI引擎,整合成本最低;很多日常工作,比如整理文件、分析报表、生成前端原型,都可以直接在Google的产品里完成。相反,如果你的基础设施是建在微软与OpenAI这一边,习惯了Azure、Office、各种基于ChatGPT 的工具,那么让ChatGPT 5.1 继续做主力模型,会省掉大量迁移的烦恼。
马克贝尼奥夫(Marc Benioff)可以豪气地说“我不回去了”,那是一个巨头的个人选择。对多数企业和普通使用者来说,更现实的做法,恐怕不是选边站,而是学会“兵分两路”:遇到海量、多模态、极度复杂的数据,就把重活交给Gemini 3;需要长期对话、细水长流地协助写作、思考和日常自动化时,就让ChatGPT 5.1 留在身边。与其问谁赢谁输,不如先弄清楚:在你的世界里,哪种聪明,更能帮你把今天手上的工作做好。