Perplexity: 自有的 LLM?

Avatar
Lisa Ernst · 05.10.2025 · 技术 · 4 分钟

Perplexity 依赖一个自有的语言模型,名为 Sonar。该模型基于 Meta 的开源基础模型(Llama 3.x),并为搜索任务进行了微调。它不是一个从头开始的基础模型,而是一个内部训练的分叉,具备自己的基础设施和搜索接入。此外,Perplexity 在付费计划中还提供第三方模型,如 GPT、Claude 和 Gemini。

Perplexity Sonar

Perplexity 于 2023 年底推出了“PPLX Online LLMs”。这些模型将开源基础(Mistral-7B、Llama2-70B)与自有的搜索、索引与爬取栈结合起来,以用当前的网络来源来支撑答案( 来源). 2025 年,作为标准搜索模式的新内置模型,Sonar 上线。根据 Perplexity 的说法,Sonar 基于 Llama 3.3 70B,针对事实准确性和可读性进行了优化( 来源). 在与 Cerebras 的合作下,Sonar 在专门的推理基础设施上运行,吞吐量可达每秒 1,200 个 Tokens( 来源).

Perplexity 通过一个基于开源的自有模型追求多重动机。首先,内置微调使其能更精确地适应搜索任务、引用逻辑和幻觉控制( 来源). 其次,专用推理基础设施(Cerebras)优化吞吐量和延迟,这对“答案引擎”产品至关重要( 来源). 第三,Perplexity 通过在自身快速、基于搜索的答案与成本更高的 Frontier 模型之间进行选择来定位自身,以便根据应用场景进行权衡( 来源). 明确的“我们有自有模型”有助于提升品牌,同时不牺牲灵活性,在需要时接入外部尖端模型( 来源).

Quelle: YouTube

模型生态系统

Perplexity 平台提供一个多样化的模型生态系统。Sonar 被描述为一个自有、针对搜索优化的模型,基于 Llama 3.3 70B,并在内部继续训练( 来源). 历史上还有“PPLX Online LLMs”,它们基于 Mistral-7B 和 Llama2-70B,并与 Perplexity 自有的网页检索系统连接( 来源). 与此同时,Perplexity 在付费计划中也提供第三方模型,如 GPT、Claude 和 Gemini,界面中可进行选择( 来源).

In Perplexity Pro,用户可以在多种强大的 LLM 中进行选择,其中也包括第三方模型。

Quelle: dhruvirzala.com

In Perplexity Pro,用户可以在多种强大的 LLM 中进行选择,其中也包括第三方模型。

Perplexity 帮助中心 将 Sonar 称为“in-house model”,并列出 Pro 中可用的 Frontier 模型(如 GPT、Claude、Gemini),用户可以主动选择( 来源, 来源).

事实与主张

有证据表明,Perplexity 使用 Sonar 作为标准搜索模式的内置模型,该模型基于 Llama 3.3 70B,并针对事实准确性、可读性以及高速度优化( 来源, 来源). 推理在 Cerebras 基础设施上运行,传输速率达到每秒 1,200 个 Token( 来源). 历史上,“PPLX Online”模型来自 Mistral-7B 和 Llama2-70B,并与自有的检索功能相关联( 来源). Pro-订阅允许在 Sonar 和第三方模型(如 GPT、Claude 或 Gemini)之间进行选择( 来源, 来源).

Perplexity 指出协议,第三方数据不会用于训练 Perplexity 的模型( 来源).

尚不清楚 Perplexity 是否会单独训练一个完全独立的 Foundation-模型(没有开源基础),目前没有可靠的宣布。所谓“Perplexity 只使用 GPT/Claude,没有自己的模型”的说法已被 Sonar 的发布所推翻( 来源, 来源).

隐私与使用

关于数据使用,Perplexity 强调对第三方提供者的合同承诺:Perplexity 的数据不得用于训练外部模型。此外,存在用于训练用途的 Opt-out 规定( 来源, 来源, 来源).

Perplexity.ai 宣告推出基于 pplx 模型的自有在线 LLMs。

Quelle: perplexity.ai

Perplexity.ai 宣告推出基于 pplx 模型的自有在线 LLMs。

影响与待解问题

用于研究、新闻和快速定位,Sonar 通常是务实的默认设置:快速、基于搜索并带有来源说明( 来源). 在需要长链逻辑、代码辅助或偏好对某一特定 Frontier 家族的工具调用时,手动在 Pro 中切换到 GPT、Claude 或 Gemini 将很划算( 来源). 关于数据保护的问题,建议查看政策、Opt-out 和企业信息;关键是承诺第三方模型不会使用 Perplexity 的数据进行训练( 来源, 来源, 来源).

Quelle: YouTube

尚待解答的问题涉及模型家族的进一步发展:Sonar 是否会长期扩展为多阶段版本(如 Pro、Reasoning),以及厂商是否发布可验证、可重复方法学的可靠、独立基准( 来源)? 未来与第三方签订的合同中关于数据使用的承诺有多稳妥,是否有外部审计或可信中心报告的详细资料( 来源)? “Deep Research” 在较长、方法论性项目中扮演怎样的角色,以及那里默认采用哪些模型( 来源)?

关于“自有模型”的问题可以明确回答:Perplexity 使用 Sonar 在 Llama-3.x 基础上进行内训微调的 LLM,专门针对快速、可引用的搜索回答,并得到专用推理硬件的支持( 来源, 来源). 同时,平台也对 Frontier 模型保持开放,可根据任务选择( 来源). 这需要在速度、成本、深度和隐私之间进行有意识的权衡,以及在具体情境下选择合适的模型。

Teilen Sie doch unseren Beitrag!