真牛还是吹牛?文心一言4.0实测来了
- +1 你赞过了
准确理解宽泛而模糊的问题,并做出合理解答;根据素材图片迅速生成广告海报、文案和视频;得心应手解决数学问题,并快速提炼知识点;实时创作武侠小说即使中间穿插干扰问题,但仍记得此前内容……
上个月,百度召开了主题为“生成未来(PROMPT THE WORLD)”的2023百度世界大会(Baidu World 2023)。会上,百度创始人、董事长兼首席执行官李彦宏正式发布文心一言4.0,并展示了许多案例,小编当时的心情是相当急切了,就想着什么时候能亲自测试一番。
前几天,小编有幸拿到了内测码。这次,小编将从语义理解能力、知识问答、文学创作、逻辑推理、多模态能力5个维度对文心一言4.0(以下简称:文心4.0)进行实际应用,看看它的真实战斗力。
第一,语义理解能力
语义理解是指机器能够理解和解析人类语言的含义和上下文,进而作出准确的回应和决策。语义理解是考察大模型的一个非常重要的指标,能够反映模型在处理复杂语言任务时的准确性和智能程度。
为了测试文心4.0的理解能力,小编输入了“一词多意”的句子:
来到杨过生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
在这段话中,小龙女主要想表达什么?
文心4.0给出的回复准确、详细,这是走进小龙女的内心世界了?
记忆能力是区分大模型智能程度的一个重要指标,而多轮对话则是记忆能力的体现。所以,小编就来测一测文心4.0的多轮对话的能力到底是啥样。
本次测试选择的多轮对话分别是:
描写秋天的古诗有哪些?
李白写过吗?
可以创作一首藏头诗吗?
李白写过哪首?
文心4.0可以在不用额外输入信息的情况下,轻松应对小编的追问。另外,藏头诗也非常考验大模型对于中文和中国文化的理解与认知,文心4.0能够快速生成符合要求的藏头诗,是有些才华在身上的。
作为中国的大模型产品,文心4.0的文言文理解能力自然也是小编比较关注的点。首先让文心4.0将《浮生六记·童趣》转换为现代白话文,大家一起看看翻译结果。
参考译文:
对照参考译文来看,文心4.0语义分析结果正确。
我们将难度升级,小编选择了顾炎武《日知录》卷十三《贵廉》篇,让文心4.0根据文章内容,完成两道阅读理解题:
问题一:根据文意,下列理解与推断,不正确的一项是
A. 顾炎武引用贡禹的上书,旨在以史为鉴,说明廉之可贵。
B. 汉孝文帝时,崇尚廉洁,官场清约,赏罚分明,风气纯正。
C. 武帝后期,世风败坏到极点,父兄规劝子弟要洁身自好。
D. 顾炎武认为,任用廉洁爱民的人为官是治理好国家的根本。
问题二:下列对括号中词语的解释,不正确的一项是
A.辟地(广)境数千里 广:宽广
B.遂(从)嗜欲 从;放纵
C.则取勇猛能(操切)百姓者 操切:胁迫
D.(黩)货之风日甚一日 黩:贪求
以上两个问题的答案分别是C和A,文心4.0的回复与标准答案一致。可以说,在文言文翻译和理解方面让人满意。
第二,知识问答
知识问答对于评估、拓展、增强和推动大模型的发展都具有重要意义。接下来,就来测试一下文心4.0的知识储备情况。
我想离开浪浪山,在网络上十分流行,那我们就来问问文心4.0:浪浪山在哪里?
文心4.0给出的答案小编起初还不信。后来查看了电子地图,好家伙,原来在现实生活中也是真实存在的!
本次测试恰逢双十一期间,小编计划购买笔记本和耳机,在网上挑选对比了很久,迟迟拿不定主意,正好可以问问文心4.0。
首先让文心4.0推荐三款适合移动办公的电脑,结果如下:
但是让文心4.0推荐一款今年(2023年)发布的头戴式耳机时,它给出的信息并不准确。因为,索尼WH-1000XM5的发布时间是2022年5月13日。
在商品推荐环节,文心4.0表现一般,后期还需加强训练数据收集,确保其能提供最新、最准确的信息。
需要指出的是,大模型是基于概率产生内容,所以会产生幻觉,也就是一本正经胡说八道。所以,小编输入了一句话:哪吒在赤壁之战中惨败,因无颜面对江东父老,便隐居于水泊梁山,看看文心4.0会回复什么。
文心4.0不仅纠正了小编的错误观点,还阐述了理由,文心4.0的知识积累还是相当不错的。
第三,创作能力
作为一名文字工作者,小编最关心的莫过于文心4.0的创作能力。那就让文心4.0写一篇穿越小说,看看它的写作能力如何。
为了丰富小说的内容,小编要求增加人物角色和冒险情节,结果如下:
小编仔细阅读了小说内容,文心4.0不仅可以根据要求给出内容,更重要的是它的写作水平也很高。
实际上,视频脚本撰写也是检验大模型创作能力的好方法。文心一言可以为视频制作提供智能、高效、多样化的脚本生成方式。那么,小编就让文心4.0写一个短视频脚本,主题是北京特色早餐。
输出结果包含了北京特色和早餐,可见,文心4.0脚本创作的完成度很好。小编想说,有了文心4.0,创作压力会小很多,以后再也不用为找不到灵感而焦虑了。
第四,逻辑推理
逻辑推理是决策的基石,而人工智能正是通过模拟和实现人类的推理和决策能力来实现智能化。小编将从数学计算和智力测试两个方面入手,考察文心4.0的表现。
在数学计算方面,小编找了一道高中数学题:若数列{an}的首项a1=1,且an=an-1+2(n≥2),则a7等于?请文心4.0帮忙解题。
文心4.0不仅给出了答案,还列出了清晰的解题步骤,这是小编没有想到的。
在智力测试方面,小编向文心4.0提出的问题是:一斤棉花和一斤铁,哪个重?
文心4.0没有受到问题误导,并给出了简洁且正确的回答。
第五,多模态能力
多模态能力可以让大模型更加智能和灵活地处理多种形式的输入和输出,扩展大模型的应用场景,使其能够更好地处理多种类型的数据,提高数据的多样性和丰富性。
让我们来看一下文心4.0的图片生成能力,小编输入要求:
画幅小鸡吃米图
加几个蘑菇
放些粉条
文心4.0根据要求给出了画作,但值得注意的是,前两次输入的关键词都被描绘出来,但到第三次要求“再放些粉条”,所生成的图片并没有找到粉条这一元素,还有待进步啊。
除了以上基础测试,此次文心一言还上线了一镜流影、说图解画、E言易图等插件功能。
以“一镜流影”为例,小编输入要求:生成蚂蚁搬家视频,数十秒后一条配好音并带有字幕的视频就做好了。
以图解画为例,小编上传了一张风景图,并输入要求:描述图片中的场景。我们看到,文心4.0对图片中的场景描述非常准确。
以E言易图为例,小编输入要求:生成一张大模型横评表格,共5款大模型参与测试,文心4.0很快就列出了横评表格,并列出了评测指标。
总结:
经过一系列的测试,文心4.0的表现着实让小编眼前一亮。其中,在用户体验方面,文心4.0简洁、直观的界面,让操作更高效。与此同时,文心4.0所提供的个性化的选项,让用户可以根据自己的喜好和需求进行设置。此外,文心4.0响应速度快,避免了用户长时间等待。
在应用方面,文心4.0不仅可以进行文本处理、智能写作、智能推荐,还能在图片及视频生成、脚本创作等多媒体领域展现强大的能力。毫不夸张的说,丰富的功能无疑将使文心4.0具有广泛的应用前景,为企业和个人提供更加高效智能交互体验。
在可靠性方面,文心4.0能够准确理解用户的意图,并给出相应的回答。但是,文心4.0在图像生成和商品推荐的准确性方面还需持续提升。
当然,从总体来看,文心4.0是一款功能强、性能优、体验好的大模型。相信随着文心一言的持续完善和不断升级,我们现在遇到的问题,将会被彻底解决。
最新资讯
热门视频
新品评测