(巴黎10日讯)下次当你考虑谘询“聊天机器人医生”(Dr ChatGPT)时,或许应该三思。
法新社报导,周一发表的一项研究表明,尽管人工智能(AI)聊天机器人现在能够轻松通过大多数医学执照考试,但它们提供的健康建议并不比人们使用传统方法获得的更好。
英国牛津大学的研究合著者佩恩说:“尽管人工智能被大肆宣传,但它还没有准备好取代医生的角色。”
她在声明中补充说:“患者需要意识到,向大型语言模型询问症状可能会很危险,因为它可能会给出错误的诊断,并且无法识别何时需要紧急救助。”
由英国研究人员领导的团队希望了解人们在使用聊天机器人识别自身健康问题,以及判断是否需要就医或住院时的成功率。
团队向近1300名英国参与者展示了10种不同的场景,例如夜间饮酒后头痛、新手妈妈感到疲惫不堪,以及胆结石的症状。
随后,研究人员随机将参与者分配到3个聊天机器人中的一个:OpenAI的GPT-4o、Meta的Llama 3或Command R+。此外,也设置了一个使用网络搜寻引擎的对照组。
使用人工智能聊天机器人的参与者只有大约1/3的时间能够识别出自身的健康问题,而只有大约45%的人能够找到正确的应对措施。
这项发表在《自然医学》杂志上的研究表明,这一结果与对照组相比并无显著差异。
患者与AI的沟通障碍
研究人员指出,这些令人失望的结果与人工智能聊天机器人在医疗基准测试和考试中取得的极高分数之间存在巨大差异,并将这种差距归咎于沟通障碍。
与通常用于测试人工智能的模拟患者互动不同,真人往往没有向聊天机器人提供所有相关资讯。
有时,人们难以理解聊天机器人提供的选项,或误解了它的建议,甚至只是忽略了它。
研究人员表示,每6个美国成年人中就有一人每月至少向人工智能聊天机器人谘询一次健康讯息,随著越来越多的人采用这项新技术,预计这一数字还会上升。
“这是一项非常重要的研究,因为它凸显了聊天机器人给公众带来的真正医疗风险”,荷兰马斯特里赫特大学的生物伦理学家肖告诉法新社。肖并未参与这项研究。
他建议人们只信任来自可靠来源的医疗讯息,例如英国国民保健服务(NHS)。