新的实测表明,GPT-5比GPT-4o更准确
- +1 你赞过了
8月18日消息,不久前,OpenAI首席执行官萨姆·奥特曼(Sam Altman)正式发布GPT-5,称其为“有史以来最强大、最智能、最快速、最可靠的ChatGPT版本”。在同期演示中,OpenAI团队特别强调,GPT-5将有效“减轻幻觉问题”。
尽管当前主流大模型的幻觉率普遍呈下降趋势,但这一问题仍广泛存在,也是人工智能在缺乏人类监督时难以独立执行任务的核心原因之一。
作为运营行业顶级幻觉排行榜(覆盖基础模型与推理模型)的RAG即服务平台Vectara,已针对OpenAI的上述说法开展实测。结果显示,GPT-5的幻觉表现确实优于GPT-4,但与GPT-4o的差距极小。
根据Vectara公布的数据:GPT-5的接地幻觉率为1.4%,而GPT-4为1.8%,GPT-4 Turbo和4o-mini为1.69%,GPT-4o则为1.49%。
值得注意的是,GPT-5的幻觉率略高于GPT-4.5预览版(其接地幻觉率为1.2%),但显著高于OpenAI表现最佳的推理模型o3-mini——该模型以0.795%的接地幻觉率成为当前GPT系列中的佼佼者。
不过横向对比来看,GPT-5的幻觉控制能力仍大幅领先于竞品:Gemini-2.5-pro的幻觉率为2.6%,Grok-4则达4.8%。
OpenAI在推出ChatGPT-5后,随即从Plus订阅账户中移除了GPT-4及其所有变体(包括GPT-4o和4o-mini),这一举措几乎立刻引发用户的强烈反对。
从幻觉控制能力维度观察,GPT-5如今已取代了ChatGPT系列中可靠性较强的版本之一——4.5版。
萨姆·奥特曼随后在社交平台回应称:“我们确实低估了用户对GPT-4o中某些功能的依赖程度,即便GPT-5在多数方面表现更优。”他同时承诺,将在有限时间内为Plus用户重新开放GPT-4o的使用权限。
最新资讯
热门视频
新品评测
X
微博认证登录
QQ账号登录
微信账号登录