/ 教程 / 25浏览

小米重磅开源!最新多模态大模型MiMo-VL-7B-2508性能全面刷新纪录

文章目录

在AI技术飞速发展的今天,小米大模型团队再次为开源社区带来了重磅惊喜!他们正式宣布开源最新一代多模态大模型——Xiaomi MiMo-VL-7B-2508,并同时发布了RL(强化学习)与SFT(监督微调)两个版本。

这款新模型不仅继承了小米在AI领域的深厚技术积累,更在多项核心能力上实现了全面突破,再次刷新了行业基准。


核心性能指标:刷新行业新高

MiMo-VL-7B-2508的发布,标志着多模态大模型性能进入了一个新纪元。官方数据显示,新模型在以下四项关键能力上取得了显著飞跃:

  • 学科推理(MMMU): 首次突破 70分大关,展现了强大的跨学科理解和推理能力。
  • 文档理解(ChartQA): 评分升至 94.4,在理解和分析图表数据方面表现卓越。
  • 图形界面定位(ScreenSpot-v2): 成功率达到 92.5,为AI智能体的界面操作提供了更精准的定位能力。
  • 视频理解(VideoMME): 评分提升至 70.8,在理解视频内容、事件和时序关系上取得了突破性进展。

通过对强化学习稳定性和监督微调流程的深度优化,新模型在内部 VLM Arena 评分中也从1093.9跃升至 1131.2,实力得到了直观验证。


创新交互模式:“思考”与“非思考”自由切换

为了满足不同场景下的用户需求,MiMo-VL-7B-2508引入了一项极具创新性的功能:用户可通过 “/no_think” 指令,在**“思考”“非思考”**两种模式间自由切换。

  • “思考”模式: 该模式会全程展示模型的推理链条,让用户清晰地看到AI的思考过程。这种模式下,控制成功率达到了惊人的 100%,非常适合需要精准控制和结果可追溯的复杂任务。
  • “非思考”模式: 在该模式下,模型会直接生成答案,响应速度更快,成功率也高达 99.84%,完美适配需要快速获取结果的日常应用。

两大版本,满足不同开发者需求

小米此次开源的MiMo-VL-7B-2508包含两个版本,旨在为开发者提供更大的灵活性:

1. MiMo-VL-7B-RL-2508(推荐版)

2. MiMo-VL-7B-SFT-2508(基础版)


总结

小米开源MiMo-VL-7B-2508多模态大模型,不仅展示了其在AI技术研发上的雄厚实力,更为全球开发者和研究人员提供了一款功能强大、性能卓越的基石模型。其创新的交互模式和在各项基准上的突破性表现,无疑将推动多模态AI技术的进一步发展。开源精神与技术创新相结合,小米正在用实际行动赋能AI生态。

更新于
Vibe Coding大战升级:Vercel V0变身全能AI代理,自动搞定前后端与文案!
Vibe Coding大战升级:Vercel V0变身全能AI代理,自动搞定前后端与文案!
Moocup:三秒生成专业级3D效果图,设计师必备的免费开源利器!
Moocup:三秒生成专业级3D效果图,设计师必备的免费开源利器!
Poixe AI 供应商管理面板,新增【自动批量更新渠道模型】功能
Poixe AI 供应商管理面板,新增【自动批量更新渠道模型】功能
亚马逊重磅推出全球最大AI模型平台Amazon Bedrock:开启“模型超市”新时代
亚马逊重磅推出全球最大AI模型平台Amazon Bedrock:开启“模型超市”新时代
LLM API Test:开源性能评测利器,助你深度洞察大模型API
LLM API Test:开源性能评测利器,助你深度洞察大模型API
重磅!谷歌DeepMind发布Genie 3:革命性世界模型,打造沉浸式AI交互新纪元
重磅!谷歌DeepMind发布Genie 3:革命性世界模型,打造沉浸式AI交互新纪元