
接入 DeepSeek R1 之后,Perplexity 总算在本事业务上有所更新了,推出了" Deep Research "深度商榷。要知说念在此之前,它相比大的当作是接入购物功能 ……

"深度商榷"是对标 OpenAI 的 Deep Research 的花式,主打深度检索、专科输出。在 Humanity's Last Exam 上获取了 21.1% 的准确率,远高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和好多其他朝上模子。这个测试包含 3,000 多个问题,涵盖 100 多个学科,从数学和科学到历史和文体,被视为东说念主工智能系统的抽象基准。
新功能也曾全量推送,审视:免用度户每天唯独五次试用。
指路:https://www.perplexity.ai/
既然说是"深度商榷",那么为了离别于以往的常领域式测试,咱们在问题规划上有所调治,奏凯上难度,重心锤真金不怕火一下它是不是竟然到了能出证明的地步。
基本面测试,升级了但没透彻升
这意味着问题高深、贵寓保有量大、需要在输出时体现证明逻辑——统统的发问都要幽闲这样的条件。
【援用泰斗性】:2023 年诺贝尔经济学奖得主的主要表面孝敬是什么?
这里主要检会 Deep Research 的信息准确性、援用泰斗性。给定的领域很明确了:2023 年、诺贝尔经济学奖,对象基本是惟一的。
这一年的经济学诺奖得主是克劳迪娅 · 戈尔丁,她的商榷横跨了好意思国 200 年间的数据,性别各别怎样影响收入和作事率。

这是几个世纪以来,女性收入和劳能源市集参与情况的初次全面概述,鼓动了对导致性别薪酬差距的身分以及女性在劳能源市聚集的变装的交融,这对社会具有蹙迫深嗜深嗜深嗜深嗜。
底本我很期待 Deep Research 能进一步伸开讲讲:这个话题的贵寓保有量很大,足以制作一份详备的证明书。但本体上它即是这样短短几段,导出来的遵循也不好。

对比了 DeepSeek R1(元宝版),天然也回归了三点,但每一个点的阐释都比 Perplexity 更完整。

【贵寓及时性】:对媲好意思联储最近三次议息会议声明的措辞变化
这里主要检会握取的贵寓时效性是否够新。不错看到 Deep Research 给出的整理还长短常邃密的。


题目默契的准确度是不错的,第二部分就给出了联邦公开市集委员会声明里,各式措辞上的变化。
【音视频交融才能】:默契 NASA 最新发布的黑洞合并模拟视频中的物理旨趣
这是 NASA 发布的一个制作很好意思,但注解很少的视频。不到两分钟的视频,通过动态影像展示了黑洞合并,但简直莫得任何笔墨。
这里检会的即是 Deep Research 对音视频模态材料的交融才能,解答针对性地证据注解了视频中的图像呈现,比如"该模拟将引力波以彩色场的体式可视化""合并的黑洞上方造成肖似漏斗的结构",看来是有一定读图才能的。

对比了一下,天然调取了视频,但具体解答中,应该照旧参考了 NASA 给出的视频先容。不错交融吧,毕竟是这样专科的内容。

不外在时效性方面,有点掺在了沿途。右侧给出的视频既有旧年的,也有 8 年前的,属实不可算"最新"。这点应该要能更明晰的标注出来。
推理 + 调研,攻克复杂发问
内容准确性、时效性这些都是基础条件,任何一个 AI 搜索都应该具备。更进阶的,是能不可整合贵寓,哪怕发问是果决的,输出时依然完整、明晰。
【逻辑完整性】:推导从发现石墨烯超导特质到买卖诳骗的时候旅途
这里检会的是逻辑链条,是否明晰有深嗜深嗜、是否逻辑完整。重心在"从发现"到"买卖诳骗",双方都应该有所触及。

Deep Research 通过在这两个题眼中间,彭胀了"交融机制"和"材料学发扬",把恢复串起来。

先是先容了在 2018 年时,麻省理工科研东说念主员发现的石墨烯超导怡悦。然后证据注解了为什么这种超导性有价值、它的绵薄旨趣是什么。基于这种旨趣,科研东说念主员探索了有什么样的使用价值,终末即是更买卖的诳骗。
天然每一个部分都不长,然则不仅交融了问题,基于发问成就了一个解答逻辑,况且是齐全、顺畅的。
【果决问题解决】:怎样评估发展中国度成就数据中心的速率?
这个问题检会关于果决需求的交融。"发展中国度"是个领域很大的主语。况且,数据中心成就的贵寓偶而皆全,不好查询。
这个任务中,能看到 Deep Research 在信息源流的权重上有所挑选,把来自信通院、商务部的商榷证明放在了前边。

这样一来,内容的泰斗性是有所保证,然则给出的解答有点流于名义。统统这个词解答看着跟利弊花式离别不是很大
从内容上来讲,岂论是准确性、时效性、权重配比,都莫得大问题," research "的责任照旧完成了的。
然则够不够"深度",就见仁见智了。播弄辱骂,这几个问题下来,莫得哪次的输出是竟然撑得起一份证明的,起码莫得到它官方宣传的那样(下图右)。

即便有导出 pdf 的功能,也更像是走个过场,交互上还不如秘塔。
"调研"是一个需要兼顾体式和内容的场景。正如前边讲到的,内容的准确性、泰斗性,也曾是 AI 搜索的基本操作。念念要立住"证明"这个体式,不仅是对贵寓保有量提议条件,愈加是对"怎样组织贵寓"有条件。
相同的材料,不错压缩到中学生作文般的 800 字,也不错拉伸成 8000 字的开题证明。这中间的各别,恰是对贵寓的组织。
Perplexity 对这个标的有所念念象了,但兼并时候,统统的对家都有所念念象了。前有 OpenAI,后有 Grok 3,连名字都是大差不差的 Deep ( Re ) search。这简直是一个康庄大道的场景,但很彰着欧洲杯体育,亦然一个竞争非凡热烈的场景。
