文章目录
在AI技术飞速发展的今天,小米大模型团队再次为开源社区带来了重磅惊喜!他们正式宣布开源最新一代多模态大模型——Xiaomi MiMo-VL-7B-2508,并同时发布了RL(强化学习)与SFT(监督微调)两个版本。
这款新模型不仅继承了小米在AI领域的深厚技术积累,更在多项核心能力上实现了全面突破,再次刷新了行业基准。

核心性能指标:刷新行业新高
MiMo-VL-7B-2508的发布,标志着多模态大模型性能进入了一个新纪元。官方数据显示,新模型在以下四项关键能力上取得了显著飞跃:
- 学科推理(MMMU): 首次突破 70分大关,展现了强大的跨学科理解和推理能力。
- 文档理解(ChartQA): 评分升至 94.4,在理解和分析图表数据方面表现卓越。
- 图形界面定位(ScreenSpot-v2): 成功率达到 92.5,为AI智能体的界面操作提供了更精准的定位能力。
- 视频理解(VideoMME): 评分提升至 70.8,在理解视频内容、事件和时序关系上取得了突破性进展。
通过对强化学习稳定性和监督微调流程的深度优化,新模型在内部 VLM Arena 评分中也从1093.9跃升至 1131.2,实力得到了直观验证。
创新交互模式:“思考”与“非思考”自由切换
为了满足不同场景下的用户需求,MiMo-VL-7B-2508引入了一项极具创新性的功能:用户可通过 “/no_think” 指令,在**“思考”与“非思考”**两种模式间自由切换。
- “思考”模式: 该模式会全程展示模型的推理链条,让用户清晰地看到AI的思考过程。这种模式下,控制成功率达到了惊人的 100%,非常适合需要精准控制和结果可追溯的复杂任务。
- “非思考”模式: 在该模式下,模型会直接生成答案,响应速度更快,成功率也高达 99.84%,完美适配需要快速获取结果的日常应用。
两大版本,满足不同开发者需求
小米此次开源的MiMo-VL-7B-2508包含两个版本,旨在为开发者提供更大的灵活性:
1. MiMo-VL-7B-RL-2508(推荐版)
- 特点: 经过强化学习(RL)优化,性能更稳定,在大多数场景下都具备卓越的表现。
- 开源地址: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508
2. MiMo-VL-7B-SFT-2508(基础版)
- 特点: 经过监督微调(SFT),稳定性比上一版更高。开发者可以基于此模型进行SFT或RL的二次开发和实验,探索更多可能性。
- 开源地址: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508
总结
小米开源MiMo-VL-7B-2508多模态大模型,不仅展示了其在AI技术研发上的雄厚实力,更为全球开发者和研究人员提供了一款功能强大、性能卓越的基石模型。其创新的交互模式和在各项基准上的突破性表现,无疑将推动多模态AI技术的进一步发展。开源精神与技术创新相结合,小米正在用实际行动赋能AI生态。