(吉隆坡27日讯)阿里云宣布,通义千问Qwen2.5-Omni-7B正式开源。
阿里云今日发文告说,这是通义系列模型中的首个端到端全模态大模型,在智能语音应用领域尤其具有前景。
“该模型专为全模态感知设计,可处理文本、图像、音频、视频等多模态输入,并实时生成文本与自然语言应答,为在手机、笔记本电脑登终端设备,部署多模态人工智能(AI)设立新标准。”
相较于动辄数千亿参数的闭源大模型,文告说,尽管Qwen2.5-Omni采用轻量级的7B参数,但仍能展现出卓越的性能与强大的多模态能力。
“例如,透过即时语音导航协助视障者安全辨识周边环境,分析视频中的食材按步骤提供烹饪指导,及打造真正理解客户需求的智能客服对话体验。”
文告说,该模型现已在Hugging Face与GitHub上开源,并可透过Qwen Chat及阿里云开源社区ModelScope 获取。
阿里云是于去年9月推出Qwen2.5系列,并于今年1月发布Qwen2.5-Max,该模型在Chatbot Arena排行榜上位列第七,性能可媲美顶级专有大语言模型并展现卓越能力。
阿里云还开源了强化视觉理解能力的Qwen2.5-VL及专为处理长上下文输入的Qwen2.5-1M。
目前,阿里云已开源超过200个生成式AI模型。