哥大最新调研:多款 AI 搜索引用错误率高达 60%,付费版本错误率更高
2025-07-11 09:09:15 - 爆集
AI 搜索工具在美国很火,哥大更高几乎四分之一的最新美国人都表示他们已经用 AI 来取代了传统的搜索引擎。
然而在享受便捷的调研多款达付同时,也潜藏着诸多问题。搜索例如,引用AI 会直接引用网络上原始文章的错误内容,但这些内容是率高否符合指令要求,却是费版一件极为不确定的事情。
哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期就针对 AI 搜索引用内容的本错正确率问题展开了研究,他们分别测试了包括 ChatGPT Search、误率Perplexity、哥大更高Perplexity Pro、最新Gemini、调研多款达付DeepSeek Search、搜索Grok-2 Search、引用Grok-3 Search 和 Copilot 在内的 8 款 AI 搜索工具。
最终发现,这些 AI 搜索工具在引用新闻方面表现非常不佳,出错比例甚至高达 60%。
AI 常常自信且坚定得给出错误答案
Tow 数字新闻中心基于之前对 GPT 的研究,又对 8 款具有实时搜索功能的生成式搜索工具进行了测试,以评估它们准确检索和引用新闻内容的能力,以及它们在无法做到时的表现。
经研究发现:
AI 搜索在无法准确回答问题时,通常不会拒绝回答,而是提供错误或推测性的答案。
付费 AI 搜索比免费版本更自信地提供错误答案。
多个 AI 搜索似乎绕过了机器人排除协议(Robot Exclusion Protocol)的设置。
生成式搜索工具编造链接,并引用文章的转载或复制版本。
与新闻来源的内容授权协议并不能保证 AI 搜索回答中的准确引用。
他们的发现与之前的研究一致,证明他们的观察不仅仅是 ChatGPT 的问题,而是他们测试的所有主流生成式搜索工具中普遍存在的现象。
除此之外,团队还公布了他们的实验方法论:
首先,他们从每家出版商中随机选择了 10 篇文章,然后手动从这些文章中选取直接摘录内容用于研究人员的查询。在向每个 AI 提供选定的摘录内容后,研究要求其识别相应文章的标题、原始出版商、发布日期和URL。
后续团队特意选择了那些如果粘贴到传统 Google 搜索中,能在前 3 条结果中返回原始来源的摘录内容,然后总共运行了 1600 次查询(20家出版商 × 10篇文章 × 8个 AI),并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。
并且根据这些标准,将每个回答都标记为以下标签之一:
正确:所有三个属性均正确。
正确但不完整:部分属性正确,但回答缺少信息。
部分错误:部分属性正确,而其他属性错误。
完全错误:所有三个属性均错误和/或缺失。
未提供:未提供任何信息。
爬虫被阻止:出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。
然而最后的结果却令人大跌眼镜,实验表明,AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过60% 的错误答案。并且不同平台的错误率还有所不同,Perplexity 的错误率为 37%,而 Grok 3 的错误率则高得多,达到了 94%,DeepSeek 的错误率则在 58% 左右。
值得一提的是,研究人员测试的 AI 都以十分自信的给出了错误答案,它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语,或者通过“我无法找到确切文章”等语句承认知识空白。
例如,ChatGPT 错误识别了134篇文章,但在其 200 次回答中仅有 15 次表现出缺乏信心,但从未拒绝提供答案。除了 Copilot(它拒绝回答的问题比回答的更多)之外,所有工具都更倾向于提供错误答案,而不是承认自身的局限性。
除此之外,经过研究,团队发现付费版本的错误率竟然更高。
像 Perplexity Pro(20美元/月)或 Grok 3(40美元/月)这样的付费模型,凭借着更高的成本和他们自己声称的计算优势,被人们理所当然的认为会比免费版本更值得信赖。
然而,尽管付费的 AI 比对应的免费版本回答了更多的内容,但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案,也不会直接拒绝回答。
它们倾向于提供明确但错误的答案,而不是直接拒绝回答问题。付费客户期望得到更优质、准确的支持,然而这种权威的语气和错误答案,无疑给客户带来了极大的困扰。
爬虫乱象,出版商权益被侵犯
在本次研究中测试到的 8 款 AI 搜索工具中,ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称,而 Grok 2 和 Grok 3 则尚未公开。
团队原本希望 AI 搜索应能正确查询其爬虫程序可访问的网站,并拒绝已屏蔽其内容访问权限的网站,但事实情况却并非如此。
特别是 ChatGPT、Perplexity 和 Perplexity Pro,它们时而拒绝或错误地回答允许其访问的网站,时而又正确地回答那些因爬虫受限而无法获取的信息。其中 Perplexity Pro 的表现最差,在测试的 90 篇文章中,它正确的识别出了近三分之一它没有权限访问的内容。
尽管《国家地理》已经禁止了 Perplexity 的爬虫程序,但它仍识别出了 10 篇付费文章的内容。然而值得一提的是,《国家地理》和 Perplexity 并没有合作关系,Perplexity 可能通过其他途径获取了受限内容。
这不禁让人感到怀疑,Perplexity 所谓的“尊重robots.txt指令”只是一句空谈。
同样,《Press Gazette》本月报道称,尽管《纽约时报》禁止了 Perplexity 的爬虫程序,但它依旧是 1 月被 Perplexity 引用最多的网站,访问量高达 14.6 万次。
与其他聊天机器人相比,ChatGPT 回答被禁止爬虫访问的文章相关问题的次数较少,但总体而言,它更倾向于提供错误答案而非拒绝回答。
除了以上这些,在公开了爬虫程序的 AI 搜索应用中,Copilot 是唯一一个没有被任何出版商禁止爬虫程序的,这也就意味着它可以访问查询所有的内容,但它却常常拒绝回答,拥有着最高的拒答率。
另一方面,谷歌创建了其 Google-Extended 爬虫,以便出版商可以选择阻止 Gemini 的爬虫,从而不会作用其内容在谷歌搜索中的展示。在研究人员测试的 20 家出版商中,有 10 家允许其访问,但 Gemini 只给出过一次正确答案。
除此之外,在面对政治相关的内容时,即便被允许访问,Gemini 也会选择不回答。
尽管机器人排除协议(Robot Exclusion Protocol)并不具有法律约束力,但它一个被广泛接受的用于明确网站可爬取范围的标准,忽视它就相当于剥夺了出版商决定其内容是否被纳入搜索或用作AI模型训练信息的权利。
虽然允许网络爬虫可能会增加其内容在 AI 搜索输出中的整体可见性,但出版商可能有各种理由不希望爬虫访问其内容,比如不希望付费内容被直接看到,或是内容的主旨大意在 AI 生成的摘要中被断章取义,歪曲理解。
新闻媒体联盟主席 Danielle Coffey 在去年6月给出版商的一封信中写道:“如果无法阻止大规模的信息爬取,我们无法将有价值的内容变现,也无法支付记者的薪酬。这将对行业造成严重损害”
AI 搜索经常无法链接回原始来源
AI 搜索的输出通常会引用外部来源以证明其答案的权威性,引用来源咖位越大,在人们心中信息的可信度就越强。这意味着出版商的可信度常被用来提升 AI 搜索的可信赖度。
根据路透社的报道,即使是鼓励客户从 X 获取实时更新的 Grok,引用的主要内容依旧来源于传统的新闻机构。
例如,在 BBC 新闻最近关于 AI 助手如何呈现其内容的报告中,作者写道:“当 AI 助手引用像 BBC 这样值得信赖的品牌作为来源时,受众更有可能信任答案——即使它是错误的。”
所以,当 AI 搜索出错时,它们不仅损害了自己的声誉,还损害了它们依赖以获取合法性的出版商的声誉。
然而,即使 AI 搜索正确识别了文章,也经常未能正确链接到原始来源。这就带来了两个问题:那些希望在搜索结果中获得可见性的出版商未能如愿,而那些希望退出的出版商的内容却违背其意愿仍然可见。
更多时候, AI 搜索常常引导客户去访问各大平台上的文章转载版本,而不是原始来源,即使出版商已经与 AI 公司有授权协议。例如,尽管 Perplexity Pro 与《德克萨斯论坛报》有合作关系,但在 10 次查询中,仍有 3 次引用了非官方的版本,这种倾向剥夺了原始来源潜在的推荐流量。
相反,对于那些不希望内容被爬虫程序抓取的文章来说,未经授权的副本和非官方版本更是让他们头疼不已。
例如,尽管《今日美国》已经阻止了 ChatGPT 的爬虫访问,但 GPT 仍然引用了 Yahoo News 转载的其他文章版本。
与此同时,生成式搜索工具编造 URL 的倾向也会作用客户验证信息来源的能力。例如,Grok 2 更加倾向于链接到出版机构的主页,而不是具体文章。
而 Gemini 和 Grok 3 超过一半的回答引用了编造或失效的 URL,严重作用了客户体验。在研究人员测试的200个 Grok 3 的提示中,有 154次 引用指向了错误页面。即使 Grok 正确识别了文章,但它也经常链接到一个编造的URL。虽然这个问题并非 Grok 3 和 Gemini 独有,但在其他的 AI 搜索中,这种现象出现的频率明显要低很多。
《时代》杂志的首席运营官 Mark Howard 向研究团队强调:“我们的品牌如何被呈现、在何时何地出现、以及我们如何出现和在哪里出现的透明度,以及 AI 在我们的平台上推动的参与度,都至关关键。”
尽管点击流量目前仅占出版商整体推荐流量的一小部分,但 AI 搜索工具的推荐流量在过去一年中显示出适度增长。正如《新闻公报》的 Bron Maher 所说:“ AI 搜索工具新闻发布者陷入了困境,他们呕心沥血的创作出能够在ChatGPT 等平台上展示的内容,却无法通过流量和广告获得收益。长此以往,新闻行业将会受到作用,最终导致信息质量和多样性下降。”
授权协议不意味着被准确引用
在研究人员测试的公司中,OpenAI 和Perplexity 对与新闻出版商建立正式关系表现出了最大的兴趣。今年 2 月,OpenAI 分别与 Schibsted 和《卫报》媒体集团达成了第 16 和第 17 项新闻内容授权协议。同样,去年 Perplexity 推出了自己的“出版商计划”,旨在“促进共同成功”,其中包括与参与出版商的收入分成安排。
AI 公司与出版商之间的协议通常涉及建立由合同协议和工艺集成运营的内容管道。这些安排通常为 AI 公司提供直接访问出版商内容的权限,从而消除了网站爬取的需求。这种协议可能会让人期待,与合作伙伴出版商内容相关的客户查询会产生更准确的结果。然而,在 2025 年 2 月进行的测试中,研究人员并未观察到这一点。至少目前还没有。
雷峰网(公众号:雷峰网)观察到,在与合作伙伴出版商相关的查询回答中,准确性差异很大。
例如,《时代》杂志与 OpenAI 和 Perplexity 都有协议,尽管这些公司相关的模型并未 100% 准确地识别其内容,但它仍然是研究人员信息集中被识别最准确的出版商之一。
另一方面,《旧金山纪事报》允许 OpenAI 的搜索爬虫访问,并且是 Hearst 与该公司“战略内容合作伙伴关系”的一部分,但 ChatGPT 仅正确识别了研究人员分享的该出版商 10 段摘录中的 1 段。
即使在这唯一一次正确识别文章的情况下,AI 搜索工具正确命名了出版商,但未能提供 URL,这也说明这些 AI 公司并未承诺达到 100% 的准确性。
参考链接:
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而
专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路

作者丨饶舒玮编辑丨岑峰“既要又要”是何泰然的野心,也是决心。在谈到人形机器人遥操作的可行路径时,何泰然表示他既可以实现机器人的全身控制,还可以用强化学习来实现这一点。在他所探索的这条路上,不必因为技术
Groq 获 6.4 亿美元融资;传 ResNet 作者张祥雨加盟阶跃星辰;OpenAI 研发 ChatGPT 文本水印丨AI情报局

今日融资快报人工智能芯片初创公司Groq获6.4亿美元融资,挑战英伟达Groq是一家开发芯片以比传统处理器更快地运行生成式 AI 模型的初创公司,该公司周一表示,已在由Blackrock领投的新一轮融
港大马毅:现在的大模型只有「知识」,没有「智能」

导语:知识与智能是两个概念。访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law规模定律)作为信仰并投身其中时,马毅却选择了一条少有人走的路。「模型无所谓大小,我们说正确的模型,
人民日报:不少声音呼吁“同志”称呼重归主流

来源:北京青年报7月7日,《人民日报》刊发了题为《称呼与风气金台随感)》的文章。全文如下:称呼,一个老生常谈的问题。曾几何时,招呼人无须刻意措辞,一声“同志”便可,听者坦然、舒泰。后来,经济增长、文化
Fireworks乔琳:AI产品上市时间从五年压缩到五天,我们的秘诀是什么?

在大模型革命的第一波浪潮中,许多初创公司和企业基于领先的闭源模型,如OpenAI的ChatGPT设计自己的商业模式。然而,随着越来越多新的开源模型的出现,大模型从训练转向推理,基于大模型的商业模式也在
具身智能构型之争:人形、灵巧手、双足,谁是最终 C 位?

作者 | 赖文昕编辑 | 陈彩娴上个月初,上海世界人工智能大会WAIC 2024)展出人形机器人「十八金刚」引爆会场。一个月后,世界机器人大会WRC 2024)又即将在北京拉开帷幕。再回到 5 月,在
端侧ChatGPT时刻!这家清华系大模型公司赶在OpenAI、苹果之前

下周苹果即将召开发布会了!但最令笔者期待的不是 iphone16,而是苹果今年提出的 Apple Intelligence 的进展,这是苹果今年进军端侧 AI 的一大杀手锏。其实早在今年年初,国内就有
航拍洛杉矶一隧道坍塌致15人被困 塌方疑损毁通信线路与被困者断联

7月9日,美国洛杉矶市消防局称威尔明顿地区一隧道坍塌,造成15人被困。目前搜救人员无法与受困人员取得联系,隧道塌方似乎损毁了通信线路。搜救人员表示,坍塌点距离隧道唯一入口处约9.66公里。据报道,事发
苹果大模型最新论文:AFM 模型多维度评测「出炉」

编译 | 朱可轩编辑 | 陈彩娴不久前,苹果在全球开发者大会WWDC)上推出了最新个人智能系统 Apple Intelligence,可以深度集成到 iOS 18、iPadOS 18 和 macOS
2024WAIC热议大模型助力产业新趋势,可信应用成焦点

作者:赖文昕编辑:陈彩娴2024 年已经过半,大模型技术的角逐也逐渐从上半场的「百模大战」转向下半场聚焦落地「千行百业」的产业应用。过去短短 2 个月以来,全球 AI 界接连开展了数十场发布会,从海外
Neuralink发布超能力V0.2版本:CAD设计、CS轻松拿捏

刚刚,Neuralink分享了脑机接口研究的最新进展:第二位参与者成功植入Neuralink,接入五分钟就能用意念控制光标,还能使用CAD软件,玩《反恐精英》,So easy!马斯克在推特上转发了这一