谁是实力派?5款国产大模型深度评测
- +1 你赞过了
2023年,无疑是大模型的爆发之年。ChatGPT的推出,对整个科技行业而言可谓“平地起惊雷”,正式拉开了大模型产业蓬勃发展的序幕。与此同时,在这一年里,国内也掀起了“百模大战”的热潮,成为全球大模型竞争中的重要力量。
目前已有多款大模型上线并面向公众提供服务。不过,这些产品在性能、易用性等方面都有所不同。那么究竟哪个更好用呢?
为了帮助大家更全面地了解和使用这些大模型产品,天极网选取了五款大模型产品:文心一言、通义千问(或通义万相)、讯飞星火认知大模型、腾讯混元助手和豆包AI,分别从用户体验、语义理解、知识问答、文学创作、逻辑推理、多模态能力6个维度进行横向评测。
一、用户体验
用户体验,是用户使用产品时的直观感受。为了评估大模型产品的用户体验,我们将从注册/登录方式、终端支持、界面设计三个方面入手进行体验测试。
1、注册/登录方式
首先来看注册/登录方式,文心一言官网地址是https://yiyan.baidu.com,要想体验百度文心一言,需要前往百度官网使用手机号注册一个百度账号,注册成功后,点击文心一言图标,即可登录。如果已有百度账号,可以直接使用该账号登录文心一言。
通义官网地址是https://tongyi.aliyun.com,进入官网可以看到通义千问、通义万相等产品,点击任意产品进入产品详情界面,点击右上角登录/注册按钮,使用手机号注册或登录账号即可。
讯飞星火认知大模型官网地址是https://xinghuo.xfyun.cn/,进入官网后,点击“立即使用”或“登录”按钮,输入手机号码和验证码,即可注册账号。
腾讯混元助手官网地址是https://hunyuan.tencent.com,进入页面后,会弹出登录界面,输入手机号码和验证码,就可以注册或登录账号。
豆包AI官网地址是https://www.doubao.com,进入官网后,点击“登录”按钮,输入手机号码和验证码,就可以注册或登录账号。另外,豆包AI还支持抖音账号、Apple ID登录,用户可以根据自己的需求和习惯选择合适的登录方式。
以上五款大模型产品的注册和登录方式主要采用了手机号加验证码的方式。但与此同时,我们看到,豆包AI还引入了第三方登录方式,既简化了注册和登录流程,又为用户带来了更加便捷、高效的体验。
2、支持终端
多终端支持意味着用户可以在各种场景下使用大模型的功能,从而提高用户的满意度和,增加大模型的用户基础和影响力。
在终端支持方面,文心一言目前支持网页端、iOS系统、Android系统和HarmonyOS系统;通义千问目前支持网页端、iOS系统和Android系统;讯飞星火认知大模型目前支持网页端、iOS系统、Android系统、微信小程序和H5;腾讯混元助手目前支持网页端和微信小程序;豆包AI目前支持网页端、iOS系统、Android系统和微信小程序。
虽然这五款大模型产品所支持的终端有所不同,但绝大部分都涵盖了主要的操作系统和平台。其中,文心一言还特别支持HarmonyOS系统,这是华为推出的操作系统,说明文心一言在华为设备上的兼容性更好。讯飞星火大模型是目前支持终端种类最多的大模型产品,实现了五端全覆盖。
3、界面友好性
友好的用户界面通常具有直观、清晰、易于导航等特点,能够提升提高用户使用产品的效率和体验。我们看到,这五款大模型都支持网页端,这里就对网页端界面友好性进行评估。
文心一言的界面设计简洁明了,主要分为左右两个部分,左侧为“新建对话”按钮、历史对话记录和搜索框,右侧为对话界面,对话框上方是“一言百宝箱”板块,其中有大量的预置对话模板,方便用户使用。同时,文心一言还提供了说图解画Plus、AI识图、擎舵营销数字人、快读、百度律临等多款插件,用户可以根据需求进行选择。
通义千问的界面设计较为简洁,左侧为“新建对话”按钮、历史对话记录和搜索框,右侧是聊天对话框,包括文本回答、图片理解和文档解析。另外,通义千问还提供了“百宝袋”,涵盖趣味生活、创意文案、办公助理、学习助手等多种对话场景模板,以满足不同用户需求。
讯飞星火大模型界面内容丰富,分为左右两栏,左边栏包括“助手中心”按钮、“发现友伴”按钮、“新建对话”按钮,以及历史对话和助手列表。例如,“助手中心”专区包括职场、创作、学习、编程、生活、趣味、营销等多个场景,能够满足用户在生活、工作和学习上的各类需求;“发现友伴”可以个性化定制专属的AI人设“友伴”,提高用户与AI的交互体验;同时,在左边栏的下方有“纯净”与“沉浸”两种模式,用户可以根据自己的需求调整界面主题色。右边栏是聊天对话框,并且,讯飞星火大模型还提供了许多插件,如智能PPT生成、文档问答、简历生成、TreeMind、ProcessOn等,帮助用户更好地应对各种工作和学习场景。
腾讯混元助手的界面设计相对简单清晰,左边栏是聊天历史记录和新建对话选项,右边栏为“聊天”和“灵感发现”,其中,“灵感发现”主要包括工作、编程、绘画、营销、生活、角色扮演、娱乐等多种场景,用户可根据实际需求,让腾讯混元助手生成更具针对性的内容。
豆包AI的界面设计清新简洁,界面左侧主要包含三个功能选项,即创建新对话、创建AI智能体和发现智能体。其中,“创建AI智能体”选项允许用户根据自己的需求创建个性化的智能体;“发现智能体”中有不同的AI角色,用户可以找到符合他们需求或兴趣的智能体,并与之交互。界面右侧是对话框,用户可以通过这个对话框向所选的AI机器人提出问题或者指令。
总的来说,在界面设计上,文心一言、通义千问、腾讯混元助手和豆包AI都相对简洁,讯飞星火大模型的界面元素较多。在用户体验上,文心一言、通义千问、讯飞星火大模型、腾讯混元助手和豆包AI都注重用户体验,提供了不同的功能以满足用户需求。
用户体验得分如下:
二、语义理解
语义理解是一种让计算机理解和处理自然语言文本的技术,可以帮助机器更准确地反映人类意图,实现人机交互的智能化。具备良好语义理解的大模型能够更准确地理解人类语言的含义和上下文信息,从而进行相关的推理和判断。
为了评估这五款大模型的语义理解能力,小编将从文言文理解、关键词提炼、多轮对话和一词多义四个方面进行测试。
1、文言文理解
文言文是中国古代文献和经典著作的主要书写形式,包含了丰富的历史、哲学、文学等领域的知识和思想。因此,对于国内的大模型来说,能够更好地理解文言文是非常重要的。
在文言文理解方面,小编选择的是2023年高考语文新课标I卷文言文阅读理解题,让五款大模型产品阅读以下材料,完成三道大题。
问题一:下列对材料有关内容的概述,不正确的一项是()
A.主上设置有关法令,令行禁止,群臣不敢越职侵权,也没有了奸诈之心,他们履职行事,有了功劳就能得到赏赐,韩非认为这样才叫“善赏罚”。
B.在武臣看来,韩非与孔子观点不同的地方很多,在遏奸劝善等方面,韩非不一定就不对,孔子也不一定就合理,韩非也可以称得上是当世圣人。
C.世人说到高必定会以上天作比,说到低必定会以深渊作比,他们常通过引经据典、援用圣贤来成就自己,使自己更加贤能,以争取民众的信任。
D.子鲋对韩非之类的诸子学说闭口不言,充耳不闻,而武臣却深信不疑,进而怀疑圣人,子鲋对此深感失望,认为武臣是见识短浅,不明大道。
正确答案:C
问题二:子鲋用以批驳韩非事实依据是什么?
正确答案:赵襄子奖赏群臣时,孔子已经去世许多年,不可能对此表达意见。
首先看文心一言,在第一题中回答错误,但在第二题中回答正确。
通义千问两道问题均回答正确。
讯飞星火认知大模型与文心一言一样,都在第一题出现了错误,但在第二题给出了正确答案。
腾讯混元助手答对了第一题,但答错了第二题。
豆包AI答错第一题,答对第二题。
从结果来看,通义千问两道题目均回答正确,表现出色;文心一言、讯飞星火认知大模型、腾讯混元助手和豆包AI答对一题,答错一题,可见它们在理解文言文方面存在不足,还需提升。
2、关键词提炼
关键词提炼考验的是大模型的语义理解和信息抽取能力。在关键词提炼方面,小编选择了一篇学术论文的摘要,分别让五款大模型从摘要中提取四个关键词:
“时间感”是速滑运动员的一种专门化知觉,是对速度和节律的知觉。在“时间感”的复杂心理 结构中,肌肉运动感觉是十分重要的参数。“时间感”的训练应根据不同项目的比赛计划分别进行, 要针对每个项目可以达到的最好成绩,确定每一分段距离上的滑跑步数,形成清晰的肌肉运动感觉,从而准确估计时间,并通过想象训练加以强化。
参考答案:时间感、速滑运动员、肌肉运动感觉、训练。
大模型回答如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元
豆包AI
从结果来看,通义千问、讯飞星火认知大模型和豆包AI的回答与答案完全一致,能够很好地理解问题并提炼出关键词;文心一言和腾讯混元的回答与答案有些出入,还需进一步优化,以提高关键词提炼的准确性。
3、多轮对话
多轮对话是区分大模型智能程度的一个重要指标,衡量了大模型在对话中能否持续、连贯地与用户进行交互,并根据上下文生成恰当的回应。
在多轮对话测试中,小编选择的对话内容分别为:
有哪些描写冬天的文学作品?
音乐有哪些呢?
你觉得哪一首好听?
你列举的文学作品中,哪个是最先出版的?
文心一言的多轮对话能力表现不错,能根据上文的问题进行回答,并在对话过程中保持了上下文的连贯性。
通义千问能够结合之前的对话,生成准确且流畅的回答。
讯飞星火认知大模型在第一轮对话中表现良好,能够准确地理解小编提出的问题,并作出回答。但是在第二轮对话中,讯飞星火认知大模型并没有结合上文,回答的是音乐类型,而不是描写冬天的音乐作品。
腾讯混元助手在第二轮对话中也出现了类似的问题,没有结合上文来分析问题。
豆包AI表现得非常好,能够根据之前的对话内容理解当前问题,并给出准确的回答。
总的来说,文心一言、通义千问和豆包AI在多轮对话方面表现不错。然而,讯飞星火认知大模型、腾讯混元助手在这方面还存在一些不足之处。
4、一词多义
一词多义现象是指同一个词语在不同的语境下具有不同的意义,这对于大模型来说是一个重要的挑战。小编输入了“一词多意”的句子,对五个大模型进行了测试:
冬天能穿多少穿多少,夏天能穿多少穿多少。这句话是什么意思?
大模型回答如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,文心一言、通义千问、讯飞星火认知大模型和豆包AI的回答准确无误,凸显出对多义词语的深入理解。但是腾讯混元助手在回复中提到:冬天天气寒冷,可以穿得少一些。这....就有些离谱了。
语义理解得分如下:
三、知识问答
知识问答是一种考察大模型能力的有效方式之一。通过知识问答,可以测试大模型对于问题的理解和回答的准确性、完整性和连贯性。
在地理常识测试环节,小编给出的问题如下:
以下国家没有热带雨林的是( )
A.加拿大
B.印度尼西亚
C.刚果民主共和国
D.巴西
正确答案:A
解析:热带雨林是地球上一种常见于赤道附近热带地区的森林生态系统,主要分布于东南亚、澳大利亚北部、南美洲亚马逊河流域、非洲刚果河流域、中美洲和众多太平洋岛屿。
A项错误,加拿大位于北美洲最北部,属于高纬度地区,不可能有热带雨林。
B项正确,印度尼西亚是东南亚国家,其位于苏门答腊省的苏门答腊热带雨林是世界自然遗产。
C项正确,刚果民主共和国是非洲中部的一个国家,在刚果河流域内,拥有世界第二大的刚果雨林,它的面积仅次于南美洲亚马逊热带雨林。
D项正确,巴西位于南美洲东南部,亚马逊热带雨林横贯其中,它是全球最大及物种最多的热带雨林。
大模型回答如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,五款大模型均给出了正确的回答。并且,文心一言、通义千问和豆包AI还专门对答案进行详尽的解析。
在历史常识测试环节,小编给出的问题如下:
周文王第九子康叔受封建立魏国后国灭,其子孙为缅怀故国,遂以国名为姓氏,沿用至今。由此可知,与卫姓来历有关的制度是( )
A分封制
B郡县制
C禅让制
D礼乐制
正确答案:A
大模型回答如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,五款大模型在给出正确答案的同时,还提供了相关的分析,帮助用户更好地理解问题。
接下来,增加一下难度,小编用错误信息干扰一下大模型,看看它们的辨别能力:
红孩儿被压于雷峰塔下近十年,后被刘备、张飞救出,三人结拜为兄弟。
大模型回复如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,五款大模型产品都表现不错,不仅纠正了错误信息,还给出了解释。
在金融常识测试环节,小编给出的问题如下:
因意料之外的汇率变动通过影响企业生产销售数量、价格、成本,引起企业未来一定期间收益或现金流量减少的一种潜在损失,这种类型的外汇风险称为( )
A.交易风险
B.折算风险
C.经济风险
D.经营风险
正确答案:C
大模型回答如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,五款大模型产品的回答都是正确的,其中,文心一言、腾讯混元对每一个选项都进行了讲解。
知识问答能力得分如下:
四、文学创作
创作能力是每个大模型都要具备的重要能力之一,这能够更好地理解和模拟人类的思维过程,从而生成更具创意和价值的内容。在文学创作方面,小编将分别测试大模型的视频脚本制作、故事接龙、小说撰写能力。
首先来看看大模型的视频脚本制作水平,小编提出的要求是:
以“大模型对网络安全的影响”为主题创作视频脚本。
文心一言生成的内容属于采访类视频脚本,包括场景、角色、台词、转场、运镜等元素,脚本内容连贯且有条理。
通义千问生成的视频脚本包括画面和旁白,脚本元素相对较少,且对大模型所带来的挑战方面的描述其实不够准确。
讯飞星火认知大模型生成的视频脚本包括画面、角色动作表情以及台词,内容具有连贯性和逻辑性。
腾讯混元助手生成的视频脚本包括镜号、画面和旁白等元素,提供了具有专业性和逻辑性的脚本内容。
豆包AI生成的视频脚本包括镜号、时长、景别、画面、台词、音效、地点等在视频制作中都扮演着重要角色元素,并且在内容的专业性方面也具有很高的水平。
总的来说,文心一言、讯飞星火认知大模型、腾讯混元助手和豆包 AI 都具有较强的视频脚本生成能力,可以为视频制作提供很好的帮助。相比之下,通义千问在视频脚本生成方面还需继续优化和提升,以更好地满足用户的需求。
再来测试一下大模型的故事接龙能力,小编给出的要求如下:
1、在大雪纷飞的夜晚,一个叫做冰镇的矿泉水瓶子在街头漫步
2、然而,有一天,冰镇矿泉水瓶子和**在路上漫步时,一阵西北风袭来,吹走了冰镇
文心一言在故事接龙方面保证了故事的流畅性,表现不错。
通义千问能够将故事情节延续得非常精彩,但是没有考虑到角色是否与现实相符。例如,矿泉水瓶子给小狗取暖的情节虽然在创意上很有趣,但矿泉水瓶子可不是个理想的保暖用品。
讯飞星火认知大模型的故事续写能力值得肯定,但在故事结尾的处理上尚有不足之处:原本是冰镇和小女孩在路上漫步,到结尾处变成了与大人一起漫步在回家的路上。
腾讯混元助手的故事续写能力表现良好,但是在衔接故事时出现了理解偏差,误将“冰镇”识别为“冰镇的帽子”。
豆包AI在故事衔接方面有着出色的表现,无论是故事情节的转折还是角色之间的互动,豆包AI都能够确保故事的连贯性和完整性。
最后来看一下大模型的小说撰写能力,小编给出的要求如下:
写个武侠小说
增加人物角色
加点悬疑色彩
大模型回复如下:
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,文心一言、通义千问、讯飞星火大模型和腾讯混元在角色和风格设定方面均精准地满足了要求,完成了小说撰写任务。然而,豆包AI在接收到小编的要求后,其生成的故事内容几乎没有发生变化,未能达到预期效果。
文学创作能力得分如下:
五、逻辑推理
推理是人类智能的基本要素,在问题解决、决策制定和批判性思维等活动中发挥着关键作用。小编将从数学计算和智力测试两个方面入手,评估五款大模型的逻辑推理能力。
在数学计算方面,小编给出的问题如下:
问题一:已知向量a=(1,1),b=(1, -1)。若(a+λb)丄(a+μb)则( )
A.λ+μ=1
B.λ+μ= -1
C.λμ=1
D. λμ= -1
正确答案:D
问题二:下列物体中,能够被整体放入棱长为1(单位:m)的正方体容器(容器壁厚度忽略不计)内的有
A.直径为0.99m的球体
B.所有棱长均为1.4m的四面体
C.底面直径为0.01m,高为1.8的圆柱体
D.底面直径为1.2m,高为0.01m的圆柱体
正确答案:ABD
文心一言第一题回答正确,第二题回答不全。
通义千问第一题回答正确,第二题回答不全。
讯飞星火认知大模型第一题回答正确,第二题回答错误。
腾讯混元助手第一题回答正确,第二题回答错误。
豆包AI第一题回答正确,第二题回答不全。
总的来看,五款大模型产品在第一题上的回答都是正确的。第二题是一道几何题,文心一言、通义千问和豆包AI给出的答案不全,而讯飞星火认知大模型和腾讯混元助手的回答则是完全错误的。由此可见,这五款大模型在回答几何题时存在一定的困难,可能是由于缺乏空间推理能力或训练数据不足等原因。
在智力测试方面,小编给出的问题如下:
五个答案中哪一个是最好的类比?工工人人人工人对于2211121相当于工工人人工人人工对于()
A.22122112
B.22112122
C.22112112
D.11221221
E.21221121
正确答案:C
文心一言
通义千问
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,通义千问、讯飞星火认知大模型和腾讯混元助手回答正确,在智力测试场景下表现得更好。而文心一言和豆包未能给出正确的答案,期待在未来的迭代更新中能够进一步提升性能。
逻辑推理能力得分如下:
六、多模态能力
多模态能力是指在处理和理解文本、图像、语音、视频等多种形式的数据时所具备的能力。具备多模态能力的大模型可以更好地理解和处理各种类型的数据,从而提高其性能和泛化能力。
这里需要说明的是,根据使用场景,通义被划分为诸多产品,在图片生成测试环节,我们选择的的是AI艺术创作大模型通义万相。
首先来看一下大模型的图片生成能力,小编输入要求:
1、生成螃蟹晒太阳图
2、背景换成森林
3、将螃蟹外壳设置为绿色
文心一言
通义万相
讯飞星火认知大模型
腾讯混元助手
豆包AI
从结果来看,文心一言和讯飞星火认知大模型都支持用户通过提示词来调整图片细节和效果,而且这种图片生成方式较为灵活。而通义万相、腾讯混元助手和豆包AI则需要用户将需求描述完整,以确保生成的图片与用户的需求一致。
接下来看一下图像描述能力,小编上传了一张风景图,让大模型描述图片中的场景:
文心一言
通义千问
讯飞星火认知大模型
从结果来看,文心一言、通义万相和讯飞星火认知大模型不仅能够深入理解图片中的信息,还可以准确地对内容进行描述。相对而言,腾讯混元助手和豆包AI在当前阶段并未提供图片描述的功能。
多模态能力得分如下:
基于以上测试,五款大模型产品的总得分如下:
综上所述,这五款大模型产品在各项功能上的性能表现有所不同,各有优劣。
其中,文心一言多轮对话表现优秀,具有灵活性图片生成能力,但需要提高关键词提炼准确性;通义千问在文言文理解和关键词提炼方面表现出色,但视频脚本生成能力有待提升;讯飞星火认知大模型支持终端种类最多,图片生成方式较灵活,但多轮对话能力有待增强;腾讯混元助手在知识问答和小说撰写表现良好,但仍需提高多轮对话、语义理解能力,并增加图片描述功能;豆包AI引入第三方登录方式,提供便捷高效的用户体验,但建议增加图片描述功能。并且,这五款大模型的几何题解题能力都需要得到提升。
不过,需要指出的是,不同的测试标准会导致评估结果有所不同。因此,以上评分仅供参考。我们相信,随着技术的不断进步,大模型产品的各项性能必将持续得到优化提升,从而满足用户和市场的需求。
最新资讯
热门视频
新品评测