人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉,即人工智能在令人信服地回答问题的同时,却向你提供了与事实不符的信息。简单地说,就是人工智能为了满足用户的需求而胡编乱造。
在使用生成式人工智能创建图片或视频的工具中,这就不是一个问题了。最后,最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西(Andrej Karpathy)竟然说,产生幻觉的现象是生成式人工智能的底层技术--大型语言模型(LLM)的最大特点。
但是,在以文本为重点、基于 LLM 的聊天机器人中,用户希望所提供的信息与事实相符,因此幻觉是绝对不允许出现的。
防止人工智能产生幻觉是一项技术挑战,而且并非易事。不过,据Marktechpost报道,Google DeepMind 和斯坦福大学似乎找到了某种变通办法。
研究人员提出了一种基于 LLM 的系统--搜索增强事实性评估器(Search-Augmented Factuality Evaluator,简称 SAFE),它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。
系统通过四个步骤对答案进行分析、处理和评估,以验证其准确性和真实性。首先,SAFE 将答案分割成单个事实,对其进行修改,并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。
为了评估 SAFE 的性能,研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后,他们在四个不同系列(Claude、Gemini、GPT、PaLM-2)的 13 个 LLM 中测试了该系统。在 72% 的情况下,SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下,SAFE 的正确率为 76%。
此外,研究人员还声称,使用 SAFE 的成本比人工注释员或事实检查员低 20 倍,因此提供了一个经济可行的解决方案,而且可以大规模应用。