牛津大学研究人员利用语义熵判断大模型是否出现“幻觉”
- +1 你赞过了
6月24日消息,据外媒报道,牛津大学的研究人员在确保生成式AI生成的信息可靠性方面取得了重大进展。
牛津大学计算机科学系的研究作者Sebastian Farquhar表示:“大模型非常有能力以多种不同的方式说出同样的话,这可能会让人很难判断他们什么时候对答案有把握,什么时候只是在编造什么。用以前的方法,不可能区分模型不确定该说什么和不确定如何说。但我们的新方法克服了这一点。”
为了做到这一点,研究团队利用语义熵的概念,通过概率来判断大模型是否出现“幻觉”。语义熵指的是同一个词语拥有多种含义的情况。当大模型使用这类词语时,可能会对表达的含义感到困惑。通过检测语义熵,研究人员旨在判断大模型的输出内容是否存在“幻觉”的可能。
目前,幻觉是阻碍更广泛采用ChatGPT或Gemini等大模型的关键因素。除了使大模型不可靠之外,例如通过在新闻文章中提供不准确的内容和编造法律先例,它们甚至可能是危险的,例如在医学诊断中使用。
该研究的资深作者、牛津大学计算机科学教授、英国人工智能安全研究所研究主任Yarin Gal表示:“从大模型中获得答案很便宜,但可靠性是最大的瓶颈。在可靠性很重要的情况下,计算语义不确定性是一个很小的代价。”
目前,利用语义熵检测大模型中的幻觉研究已发表在《自然》杂志上。
最新资讯
热门视频
新品评测