汇通财经网

MiniMax开源首个视觉RL统一框架

日前,国内多模态AI领军企业MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升达14.1%。

作为迈向通用视觉智能体的核心突破,V-Triune的开源标志着中国企业在多模态AI技术领域取得重要突破。本次V-Triune所呈现的工作,是创业团队MiniMax在构建未来大规模多模态Agent模型视觉推理能力方面的一次有益探索和重要技术储备。

MiniMax开源首个视觉RL统一框架
图片来源于网络,如有侵权,请联系删除

当前在多模态强化学习领域,视觉感知和视觉推理任务往往被独立或松散地处理,限制了信息的共享和协同优化的潜力。V-Triune的核心贡献在于,提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统,让视觉语言模型(VLM)在一个训练流程中同时学习这两类任务,从而大幅提升视觉信息的综合利用效率和模型的泛化能力。

据介绍,通过V-Triune这个统一框架的设计与验证,不仅展示了通过RL协同优化VLM感知与推理任务的可行路径,更通过动态IoU奖励等算法创新,解决了关键任务的痛点,提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统,提供了重要的思路和组件。

【纠错】 【责任编辑:陈听雨】
    阅读下一篇:
      深度观察
      • 新华全媒头条丨浙江推动人工智能健康有序发展观察
      • 财经观察丨落地逾7个月 支持资本市场2项新工具有何进展
      • 新华全媒+丨腾仓备库迎夏收 河南全力保障新粮归仓
      • 新华视点丨“几元绕开限制”,谁在诱导孩子沉迷网游?
      • 新华每日电讯丨透视深圳宝安高质量发展新活力
      • 追光丨他们,会成为国乒的“拦路虎”吗?
      • 国际观察丨德国战后首次大规模海外驻军传递什么信号
      • 何以中国丨龙舟文化焕新彩
      • 福建文物地标丨莆田木兰陂

              推荐阅读:

              《中国商业医疗险发展蓝皮书》:一半保民会为家人投保,年轻保民满意度超70%

              人保车险|别错过,交强险最新行业动态!

              人保服务|财产险三类保险的区别,你知道吗?

              腾讯游戏发布暑期限玩日历,持续落实防沉迷政策

              网络主播:从“乱花迷眼”走向“专业与责任”

              高通推出全新骁龙座舱至尊版平台和Snapdragon Ride至尊版平台

              高德企业用车香港上线,率先实现内地与香港全覆盖

              大兴人在乌兰察布丨杨淑宏:以针灸之力 助力优质医疗资源沉下去

              10月23日收盘乙二醇期货持仓较上日减持1738手

              10月23日乙二醇期货持仓龙虎榜分析:多方离场情绪弱于空方

              相关推荐