小米重磅开源！最新多模态大模型MiMo-VL-7B-2508性能全面刷新纪录 – Poixe Blog

2025-08-10 / 教程 / 196浏览

小米重磅开源！最新多模态大模型MiMo-VL-7B-2508性能全面刷新纪录

文章目录

核心性能指标：刷新行业新高
创新交互模式：“思考”与“非思考”自由切换
两大版本，满足不同开发者需求
- 1. MiMo-VL-7B-RL-2508（推荐版）
- 2. MiMo-VL-7B-SFT-2508（基础版）
总结

在AI技术飞速发展的今天，小米大模型团队再次为开源社区带来了重磅惊喜！他们正式宣布开源最新一代多模态大模型——Xiaomi MiMo-VL-7B-2508，并同时发布了RL（强化学习）与SFT（监督微调）两个版本。

这款新模型不仅继承了小米在AI领域的深厚技术积累，更在多项核心能力上实现了全面突破，再次刷新了行业基准。

核心性能指标：刷新行业新高

MiMo-VL-7B-2508的发布，标志着多模态大模型性能进入了一个新纪元。官方数据显示，新模型在以下四项关键能力上取得了显著飞跃：

学科推理（MMMU）： 首次突破 70分大关，展现了强大的跨学科理解和推理能力。
文档理解（ChartQA）： 评分升至 94.4，在理解和分析图表数据方面表现卓越。
图形界面定位（ScreenSpot-v2）： 成功率达到 92.5，为AI智能体的界面操作提供了更精准的定位能力。
视频理解（VideoMME）： 评分提升至 70.8，在理解视频内容、事件和时序关系上取得了突破性进展。

通过对强化学习稳定性和监督微调流程的深度优化，新模型在内部 VLM Arena 评分中也从1093.9跃升至 1131.2，实力得到了直观验证。

创新交互模式：“思考”与“非思考”自由切换

为了满足不同场景下的用户需求，MiMo-VL-7B-2508引入了一项极具创新性的功能：用户可通过 “/no_think” 指令，在**“思考”与“非思考”**两种模式间自由切换。

“思考”模式： 该模式会全程展示模型的推理链条，让用户清晰地看到AI的思考过程。这种模式下，控制成功率达到了惊人的 100%，非常适合需要精准控制和结果可追溯的复杂任务。
“非思考”模式： 在该模式下，模型会直接生成答案，响应速度更快，成功率也高达 99.84%，完美适配需要快速获取结果的日常应用。

两大版本，满足不同开发者需求

小米此次开源的MiMo-VL-7B-2508包含两个版本，旨在为开发者提供更大的灵活性：

1. MiMo-VL-7B-RL-2508（推荐版）

特点： 经过强化学习（RL）优化，性能更稳定，在大多数场景下都具备卓越的表现。
开源地址： https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

2. MiMo-VL-7B-SFT-2508（基础版）

特点： 经过监督微调（SFT），稳定性比上一版更高。开发者可以基于此模型进行SFT或RL的二次开发和实验，探索更多可能性。
开源地址： https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508

总结

小米开源MiMo-VL-7B-2508多模态大模型，不仅展示了其在AI技术研发上的雄厚实力，更为全球开发者和研究人员提供了一款功能强大、性能卓越的基石模型。其创新的交互模式和在各项基准上的突破性表现，无疑将推动多模态AI技术的进一步发展。开源精神与技术创新相结合，小米正在用实际行动赋能AI生态。

更新于 2025-08-10

AI大模型 OpenAI PoixeAI 免费API 免费模型小米大模型小米开源模型解决方案

OpenClaw 配置教程(含接入第三方中转配置方法)

OpenClaw 配置教程(含接入第三方中转配置方法)

OpenNana提示词图库：300+ AI灵感库，一键复制，助力创作者高效产出！

OpenNana提示词图库：300+ AI灵感库，一键复制，助力创作者高效产出！

PandaWiki：开源AI知识库系统，为你的产品文档注入智能！

PandaWiki：开源AI知识库系统，为你的产品文档注入智能！

AI短视频工厂：开源桌面端神器，30秒一键生成高频营销视频！

AI短视频工厂：开源桌面端神器，30秒一键生成高频营销视频！

写了个开源小工具 Proxify，帮你统一管理、轻松调用各类大模型 API

写了个开源小工具 Proxify，帮你统一管理、轻松调用各类大模型 API

AI虚假新闻检测器：开源事实核查利器，LLM结合语义嵌入，秒辨新闻真伪！

AI虚假新闻检测器：开源事实核查利器，LLM结合语义嵌入，秒辨新闻真伪！