您现在的位置是:按甲寝兵网 > 百科
阿里开源首个视觉推理模型
按甲寝兵网2026-01-04 18:17:06【百科】1人已围观
简介过年了!阿里今年送了最后一份礼物——QVQ的“眼睛”模型,V代表视觉。它可以通过阅读图像和指令来开始思考。I’m watching you!据报道,这可能是世界上第一个视觉推理模型,也可以理解为阿里o
过年了!阿里阿里今年送了最后一份礼物——
QVQ的开源“眼睛”模型,V代表视觉。首个视觉它可以通过阅读图像和指令来开始思考。推理

I’m watching you!模型
据报道,阿里这可能是开源世界上第一个视觉推理模型,也可以理解为阿里o1模型QWQ上个月开源的首个视觉视觉版本。

可以解决数物化生等各个领域的推理问题。

读梗图,模型数鸭子也不在话下。阿里

该模型目前正处于开放测试的开源实验阶段。

结果可能是首个视觉因为访问太多,网页一度还是推理404。

从性能上看,模型QVQ在性能上MMMU 上的得分为 70.3,超过GPT-4o、Claude 3.5 Sonnet,但是比o1模型还差一点。

阿里巴巴开源首个视觉推理模型
官方给了几个演示Demo,让我们好好感知一下它的推理能力。
让我们先来看看这个数学题。

再来一个几何题,算算这个沙发的面积。

高中化学问题:图片中的滤液E是什么化学物质?

答案是:硫酸亚铁溶液。
他们在四个数据集中评估了眼睛模型QVQ-72B-Preview,包括MMU、MathVista、MathVision、OlympiadBench,主要考察数学多模态推理和综合理解推理的能力。
QVQ-72B-Preview MMMU 在基准测试中得了70.3分,大大超过了前身 Qwen2-VL-72B-Instruct。
此外,在数学和科学问题的其他三个基准测试中,该模型也表现出了出色的性能,缩小了与o1模型的差距。

但目前该模型属于团队实验研究模型,不是特别稳定,需要注意几个限制。
语言混合和代码切换:该模型可能会意外地混合语言或在语言之间切换,从而影响答案的清晰度。
递归推理:模型可能会陷入循环逻辑模式,产生冗长的回复,无法得出结论。
考虑安全和道德:该模型需要加强安全措施,以确保可靠和安全的性能,用户在部署时应谨慎。
性能和基准限制:虽然该模型在视觉推理方面得到了改进,但它不能完全取代它 Qwen2-VL-72B-Instruct 功能。此外,在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
好好预防针,那我们浅测一波。
比如这个考验谷歌版o1的题目:
如何将这些数字加起来等于30?

结果它识别了这些球对应的数字,没有意识到9号球可以翻转成6号球,然后陷入了无尽的思考。。。
在blog的最后,他们还透露了下一个目标——增强视觉语言的基本模型,使其具有基于视觉信息进行深入思考和推理的先进能力。
延长时间,他们计划将更多的模式集成到统一的模型中,以应对复杂的挑战,参与科学探索。
(模型的尽头是AI For Science?)
参考链接:
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/
来源:量子位
很赞哦!(1)
相关文章
- 微博安卓版更新,正式引入Live Photo实况照片查看功能
- 在这个追求终极视觉体验的时代,联合创新集高性能、贴近百姓价格
- 又是一款低调却强大的电竞游戏鼠标-雷柏VT3S原相高定版3395开箱评测
- 动态监测,健康可视化-dido F50S Pro大屏血糖血压智能手环体验
- 云从科技中标武汉临机港网安基地智算中心二期扩容项目
- 双金镀层时尚轻奢,贝壳王子T3蓝牙耳机,为运动而生!
- 塞纳Z61S Pro,零重力悬挂耳挂式设计绝对会让你眼前一亮
- 升级,只为更快!QNAP增加32GB内存+SSD缓存!让数据存储更加流畅!
- 再爆小屏旗舰?消息称是vivo X200 标准版
- 吹响 240Hz 普及号角 ASUS TUF VG27AQML1A 上手体验
热门文章
站长推荐
友情链接
- 南卡NANK Ultra耳夹式蓝牙耳机
- 雷登i11运动耳机 让运动更加自由自在
- 双十一下手购买NAS前再考虑一下,你真的需要拥有NAS吗?看看我都用NAS来做什么
- 高速传输的小米四合一双头分线器、双规格USB插头、新旧电脑都
- OPPO被称为iPhone平替 Reno13即将到来
- 海景房二次元主机建议
- 死羊修复,利用双11开始一个三防移动固态,最后选择了华硕TU
- 我花了这么长时间和你分享
- ULTRAA 更新后265K的性能有什么提升吗-
- 哈尔滨Q1新投影仪,机身更可爱,配置足够,成本令人满意
- 索尼LinkBudss Fit耳机体验
- 值不值得升级?硬件如何搭配?Intel Ultra 265K深度评测+调试指南
- 不仅玩游戏,听歌曲和看戏剧也特别合适
- VT3PRO雷柏 我用MAX的游戏鼠标大概一个月了
- 值不值得升级?硬件如何搭配?Intel Ultra 265K深度评测+调试指南
- 南卡枕宝Z2,助眠新选择
- 以防群晖不再支持Audio Station,未雨绸缪提前搭建Navidrome全能音乐播放平台
- lifeme 魅族蓝G2双模快速降噪耳机,HiFi 解码耳3







