Poe.com 发布报告：2025年春季人工智能模型使用趋势

2025-05-14 / 社区生态 / 154浏览

Poe.com 发布报告：2025年春季人工智能模型使用趋势

人工智能的格局正以前所未有的速度演变，但超越标准化基准或排行榜平台，了解需求和使用模式仍然是一个挑战。与此同时，一周的首选模型可能因前沿提供者的强大升级或意外的颠覆者而迅速改变。

我们的目标是让Poe成为探索、比较和利用人工智能模型输出的最佳场所。由于Poe用户以提供商无关的方式访问到最新的前沿模型，潜在的趋势可能预示着人工智能生态系统的更广泛变化。

基于我们的前一份报告，本分析展示了2025年1月至2025年5月之间Poe用户在几个关键但扩展的领域中的每周汇总使用数据： 文本、推理、图像、视频和音频。这包括了在DeepSeek的病毒时刻之后，推理模型的持续增长，图像和视频生成变得越来越具有竞争力，以及音频多样化的早期迹象。

我们希望我们最新的发现能为研究人员和公众提供对迅速扩展的人工智能生态系统的有益洞察。 [1] [2]

前沿实验室快速发布更智能的通用文本模型

OpenAI的 GPT-4.1 系列和谷歌的 Gemini 2.5 Pro 在现实世界编程任务中提供了改进的表现，在发布后几周内，消息份额迅速增加至 ~10% 和 ~5%。
Anthropic的Claude系列（例如 Claude 3.5 Sonnet 和 Claude 3.7 Sonnet）在同一时期内见证了 ~10%的绝对份额下降。
DeepSeek 的病毒时刻似乎已减弱，因为其他价格合理、冗长的推理模型相继发布，DeepSeek R1的消息份额从2月中旬的高峰7%下降至4月底的3%。
与前一份报告的发现相似，单个提供商的旗舰模型似乎在吞噬其前身。在这种情况下，Poe订阅者迅速接受了 Claude-3.7-Sonnet，而 Claude-3.5-Sonnet 尽管仍在大语言模型中保留了约12%的整体使用率。

推理模型在DeepSeek今年早些时候的病毒入场后持续使用

自2025年初以来，前沿实验室一直在快速迭代其推理模型的产品。这导致能够花费更多时间和计算能力以更精确和可靠地解决复杂任务的模型数量增加。值得注意的是，在报告期内，发送给Poe推理模型的所有文本消息份额从 ~2% 增加到 ~10%，在DeepSeek的病毒时刻达到峰值。

以下是具有推理能力的模型在文本子类别中的消息份额。

Poe订阅者中 Gemini 2.5 Pro 的使用正在迅速增长，该模型在发布仅 ~6 周内获得了 ~30%的推理消息份额。
OpenAI在2024年末发布定义类别的推理模型 o1-preview 后，继续以无与伦比的速度发布更强大且价格合理的推理模型，在2025年前四个月内推出了 o1-pro, o3-mini, o3-mini-high, o3, 和 o4-mini。在OpenAI的推理模型中，订阅者似乎正在迅速采用最新的模型（例如o3-mini → o4-mini, o1 → o3）。
尽管xAI的Grok 3在其 2025年2月公开发布中在各种问题解决基准中名列前茅， Grok-3-mini 仍然是该系列中唯一支持在 xAI API 中进行推理的模型，这也许是它在推理模型使用中占比不足1%的原因。
我们注意到，混合推理模型的早期出现，例如 Gemini 2.5 Flash Preview 和 Qwen 3，能根据对话中变化其推理水平（即，不仅仅通过API参数）的角度进行决策（或可控）。然而，它们在该子类别中的共同使用仍然很小，约为1%。

图像生成在质量和符合性提高的情况下变得越来越具有竞争力

GPT图像生成（GPT-Image-1）在4月末在API中推出，并在仅两周内迅速达到了17%的图像生成使用率，反映了其在3月和4月初在ChatGPT应用程序中的病毒推出。
谷歌的 Imagen 3 家族在2025年间的使用增长稳定，从 ~10% 增加到 ~30%，使其与类别领导者黑森林实验室的 FLUX家族的图像生成模型相平行，后者在4月最后一周的整体占有率约为 ~35%。
图像生成模型的 FLUX家族在Poe的整体图像生成份额中保持了其总数量份额，但在报告期内轻微下降，从 ~45% 到 ~35%。

Kling 2.0在仅三周内迅速成为视频生成的有力竞争者。 [4]

中国实验室快手发布的 Kling家族视频生成模型迅速获得了约 ~30%的使用份额，特别是 Kling-2.0-Master，在2025年4月末发布的三周后，Poe的全部视频生成中产生了21%。****
谷歌的 Veo 2 在2月发布后的几个月内保持约20%的强劲使用份额。
定义类别的视频生成先行者 Runway 在报告期间，其视频生成的使用份额下降了约40%，降至约20%。 [5]

ElevenLabs在音频生成中保持领先，尽管竞争的早期迹象正在上升 [6]

在音频生成（特别是文本转语音，或“TTS”）中， ElevenLabs 似乎被用户偏爱，在报告期内满足了约80%的所有订阅者的TTS请求。
然而，在这个领域与 Cartesia、 Unreal Speech、 PlayAI 和 Orpheus 等新兴竞争对手的竞争正在加剧，这些提供独特的声音选项、声音效果和不同的性能及价格结构。

结论

我们希望分享来自Poe多样化用户基础和官方集成的数据，提供有关动态和日益演变的人工智能格局的有价值的现实观点。模型多样性和提供商竞争的增加有助于突显我们平台的价值，对用户和创作者来说都是如此。我们当前观察到推理模型的快速使用增长，并预计这种情况将继续作为领先前沿实验室的主要竞争驱动力。多媒体正在升温，继OpenAI在新图像生成能力中突破性产品之后，我们可能不久将在视频模型中看到类似的成果。

我们期待继续分享这些重要见解，同时捕捉新模式和新兴趋势的迹象。最后，如果您想体验访问我们100多个官方模型集成的库，今天可以在Poe上注册 https://poe.com/。

备注

[1] 所有用户信息均按 Poe 的隐私政策处理，其中明确禁止模型提供者将通过 Poe 提交的任何输入用于训练目的。

[2] 我们欢迎任何对我们方法论的评论/批评。所有显示的使用数据均基于 Poe 订阅者。图表中的每个条形代表一周的数据，从周一到周日。所有图表均标准化为百分比份额，以控制随时间变化的订阅者增长。在报告期间，模型点价格可能发生变化，这可能会影响使用情况。对于文本模式分析，发送给 Poe 助手机器人的消息被排除，以反映与命名模型相关的明确用户偏好/需求拉动的精神。

[3] 在文本消息份额图中，GPT-4.1 包含 GPT-4.1、GPT-4.1-mini 和 GPT-4.1-nano；GPT-4o 包括 GPT-4o、ChatGPT-4o-最新和 GPT-4o-mini；GPT-4 包括 GPT-4-经典和 GPT-4-涡轮；o1 包括 o1、o1-预览和 o1-mini；o3 包括 o3、o3-mini 和 o3-mini-high；Claude-3.7-Sonnet 包括所有发送给 Claude-3.7-Sonnet 和 Claude-3.7-Sonnet-推理的消息（无论推理努力如何），而在推理类别中，推理令牌必须设置为非零数才能被包括；Gemini-2.5 包括其 Pro 和 Flash 变体；Gemini-2.0 包括 Gemini-2.0-Flash、Gemini-2.0-Flash-Lite 和 Gemini-2.0-Flash-Exp；Gemini-1.5 包括其 Pro 和 Flash 变体；Grok-3 包含 Grok-3 和 Grok-3-Mini。