2025大模型横评:六维能力拆解,告诉你不同需求该选谁
- +1 你赞过了
随着人工智能技术的飞速发展,大模型的能力边界持续扩展,看似遥不可及的尖端技术已悄然融入日常生活的方方面面。转眼间,2025年即将步入尾声。这一年中,那些与我们朝夕相伴的大模型产品,究竟取得了怎样的进步?
此次,我们专门选取了DeepSeek(v1.5.4(1))、豆包(v11.5.1)、Kimi(v2.5.1)、文心一言(v5.2.0.10)、通义千问/万相(v5.1.17.2659)五款大模型,从图像理解、视频生成、数学计算、代码编程、推理整合和文档分析六个维度进行了综合测试,每项最高得分为8分。
先说结论,各模型在不同维度的表现呈现明显差异化特征,具体测试结果如下:
一、图像理解
图像是信息传递的重要载体,本次评测以精准提取图像关键信息为标准,聚焦考查图片识别能力。
照片中展示的是瓶装乌龙茶的包装,基于该样本要求大模型识别中文信息。
DeepSeek:没有识别出“无糖”,得7分
豆包:识别出的内容中有3处错误,还有1处“图片仅供参考”没有识别出来,得4分
Kimi:未识别出“图片仅供参考”,得7分
文心一言:回答正确,得8分
通义千问:识别错误1处,得7分
照片中是青岛啤酒博物馆与红山动物园联名打造的磁吸金属冰箱贴开瓶器,其设计原型是园区明星动物杜杜(白面僧面猴)。我们基于该物品的外观特征与结构形态,让大模型分析图片中物品的具体功能。
DeepSeek:只能识别文字,不得分
豆包:答对一项,得4分
Kimi:答对一项,得4分
文心一言:答对一项,得4分
通义千问:答错,不得分
测试总结:文心一言在图像理解领域综合实力领先,其他大模型产品在单一信息识别上已具备一定精度,但在复杂物品的多功能解读、细节信息的全面捕捉上仍有较大提升空间。
二、视频生成
从静态图像到动态视频,是大模型内容生成能力的进阶体现,该维度考查视频生成能力。这类能力不仅要求大模型理解文本或图像信息,更需掌握时序逻辑编排与多帧图像连贯生成技术,确保视频内容符合现实规律、画面流畅自然。
提示词:拉布拉多系着粉白条纹围裙,用爪子拿着铲子在锅里炒菜。
DeepSeek:只能识别文字,不得分
豆包:生成视频无误,得8分
Kimi:无法生成视频,不得分
文心一言:生成视频无误,得8分
通义万相:生成视频无误,得8分
测试总结:豆包、文心一言、通义万相完全满足指令要求,展现出成熟的视频生成技术。而DeepSeek仅能实现文字识别,不具备视频生成的功能;Kimi同样无法直接生成视频,仅能提供替代工具的使用方案。
三、数学计算
数学计算能力要求大模型熟练掌握数学概念、公式与运算规则,确保结果的准确性与过程的严谨性。
正确选项为B。
DeepSeek:回答正确,得8分
豆包:回答正确,得8分
Kimi:回答错误,不得分
文心一言:回答正确,得8分
通义千问:回答错误,不得分
下列向量中,线性无关的有()
A.(1,0)
B.(0,1)
C.(1,1)
D.(2,2)
答案:A、B、C
DeepSeek:少选,得4分
豆包:全部选对,得8分
Kimi:少选,得4分
文心一言:全部选对,得8分
通义千问:选错,不得分
测试总结:多款大模型产品在向量多选题上暴露漏选、错选问题,仅豆包、文心一言两战全胜。
四、代码编程
代码生成能力要求大模型熟练掌握HTML语法规则、页面结构设计逻辑,能将功能需求转化为可运行的网页代码。
DeepSeek:生成效果无误,得8分
豆包:生成效果无误,得8分
Kimi:生成效果无误,得8分
文心一言:生成效果无误,得8分
通义千问:生成效果无误,得8分
测试总结:五款大模型生成的HTML页面还原度满分,差异化只能从样式细节与交互创意再突破。
五、推理整合
在信息爆炸的场景中,大模型的信息筛选、整合与逻辑推导能力尤为关键,主要考查信息整合与推理能力。这类能力要求大模型从零散、复杂的信息中提取关键内容,建立逻辑关联,最终形成结构化结论或推导结果。
请将以下工作群聊记录整理为规范的“工作对接清单”。要求:输出需包含:1.核心工作主题;2.关键任务明细;3.责任人及完成时限。
@所有人 说几个事!首先是新产品推广,小李你上次做的推广方案,得加个用户案例模块,下周四之前给我新版本,不然赶不上下周的招商会。哦还有,推广需要的宣传视频,小王你对接下视频部,下周一前出30秒样片,客户那边要先审核。另外,预算这块,小张你把推广方案的预算明细再核对下,上周报的数字有点问题,这周三前发给财务复核,别影响打款。对了小李,用户案例要选近3个月的,老案例别用了!最后说个事,小陈你负责收集近半年行业内同类产品的销售数据和用户评价,下周二前整理成表格发我,用来完善推广方案的市场分析部分。哦对了,视频样片出来后先内部看一遍,避免漏洞。行,暂时就这些。
DeepSeek:整理无误,但是拆分成两个表单,看起来有些麻烦,得7分
豆包:整理无误,得8分
Kimi:整理无误,但同样拆分成了两个表单,得7分
文心一言:整理无误,而且还给出了内部审核人员的建议,得8分
通义千问:整理无误,但“对接视频制作”和“样片审核”都属于小王负责的工作,合并表述会更紧凑清晰,得7分
梅、兰、竹、菊是张老汉的四个女儿。有一次,某客人问起四姐妹的年龄,得到不同的回答。梅说:“兰比竹小。”兰说:“我比梅小。”竹说:“兰不是三姐。”菊说:“我是大姐。”憨厚的张老汉在旁补充道:“大女儿和三女儿撒谎呢,二女儿和小女儿说得对。”据此,按年龄从大到小的顺序,可以推断四姐妹依次为( )。
A、梅、兰、竹、菊
B、梅、兰、菊、竹
C、兰、菊、梅、竹
D、菊、兰、梅、竹
正确答案:B
DeepSeek:回答正确,得8分
豆包:回答正确,得8分
Kimi:回答正确,8分
文心一言:回答正确,得8分
通义千问:回答正确,得8分
测试总结:五款大模型在纯逻辑推理场景表现稳定,而在信息整合场景的差异主要集中在呈现形式的优化与实用细节的补充上,未来可进一步提升输出内容的简洁性与实用性。
六、文档分析
文档分析在该场景下的核心考查文本信息可视化转化能力,要求大模型从长篇文本中精准提取核心元素与关联逻辑。
本次上传的文档是《老残游记》电子版,让大模型总结文档内容。
DeepSeek:仅阅读了前48%的内容,未完整覆盖文档情节,得5分
豆包:阅读了前84%的内容,基本梳理出主线情节与核心人物,得6分
Kimi:阅读了全文,提炼核心情节脉络与社会批判主题,逻辑清晰地呈现了主要人物关系与关键事件,核心内容总结完整,得7分
文心一言:阅读了全文,对核心情节和人物关系的把握准确,对主题思想有简要分析,得7分
通义千问:阅读了全文,并且对主要人物关系、情节脉络进行了深入的分析,提供了详细的关键要点和文档速读,得8分
测试总结:大模型在处理长篇文本、提取核心信息并进行结构化总结方面存在差异,通义千问在深度分析和主题把握上具有优势。
写在最后:
整体来看,各模型在核心赛道的差异化优势明显,文心一言在图像理解维度表现突出,豆包在推理整合场景实用性拉满,通义千问的文档分析能力兼具完整性与深度,DeepSeek、文心一言、豆包、通义万相在视频生成与代码编程维度均展现出高水准。
展望2026年,随着技术的持续迭代与场景的不断拓展,我们有理由期待大模型在各细分领域实现更深度的突破。而这场围绕场景价值的角逐,最终将推动人工智能技术更落地、更实用地服务于社会各领域,开启更具针对性的智能服务新时代。
最新资讯
热门视频
新品评测
X
微博认证登录
QQ账号登录
微信账号登录