关闭广告

全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了

机器之心Pro2025-11-10 12:00:0246人阅读



机器之心报道

编辑:杜伟、+0

「Baidu is back」,在业界权威大模型公共基准测试平台 LMArena 发布最新一期文本竞技场排名(Text Arena)之后,有人发出了这样的惊呼。



根据 11 月 8 日凌晨 LMArena 的最新排名显示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜单上一举跃居全球并列第二、国内第一。

该模型取得了1432的高分,其与 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大国外顶级模型持平。



评论区的网友纷纷对百度新模型的亮眼表现送上了祝贺,还表示「已经迫不及待想亲自体验一番」。





毫无疑问,此次榜单结果将继续强化百度文心系列模型在全球通用智能模型竞争格局中第一梯队的地位。

全球 LLM 实战擂台,文心 5.0 Preview 悄然厮杀而来

在 AI 领域,LMArena 是由加州大学伯克利分校研究者创建的开放 AI 模型评测平台,成为了 OpenAI、谷歌等国外以及国内大模型厂商厮杀的顶级竞技场之一。

在该平台上,用户自己提交 prompt,接着系统会随机抽取两个匿名的 LLM 分别生成回答。用户根据两条回答选择偏好,即「哪一个更好」或「两者都差」等。更具体地,LMArena 会为每个模型分配初始 Elo 分数,并在每轮对决结束后实时更新分数。

相较于依赖传统静态数据集或自动评分的基准平台,LMArena 通过真实用户对模型输出的偏好投票,形成了一种偏向于「现实世界评判」的动态排名机制。这种机制让模型能力之间的较量更贴近实际使用场景,也让榜单的含金量更高。

能在 LMArena 榜单上名列前茅的模型,在学术指标上表现突出之外,更在用户体验、语言理解、创意生成与指令执行等实际应用维度获得广泛认可。文心 5.0 Preview 正是在这样真实的 LLM 对决战场取得了优异表现。

具体来讲,文心 5.0 Preview 在创意写作、复杂长问题理解和指令遵循等方面表现出色,整体成绩超越了包括 GPT-5-High 在内的多款国内外主流大模型。

其中,文心 5.0 Preview 在衡量创意生产力的重要指标——创意写作任务中排名第一,这意味着其生成文章、营销文案、剧本等内容的速度与质量均有大幅提升;在考验模型处理多层逻辑与长文本能力的复杂长问题理解中排名第二,其更加胜任学术问答、报告分析、知识推理等高认知任务;在体现模型对用户意图理解与执行精度的指令遵循任务中排名第三,其在智能助理、代码生成与业务自动化等场景的适用性大大增强。



这些核心语言能力的突出表现,表明了文心 5.0 Preview 在复杂语义理解、逻辑推理与任务执行一致性上形成了领先优势,为高质量、高效率的多场景内容生产与智能应用落地提供了更有力的支持。

不仅如此,能力全方位跃升的基础模型将成为深化 AI 与 AIGC 产业化落地的核心引擎,其价值正从单一的文本辅助转向对内容生产、企业智能体、办公自动化等场景的系统性赋能。

接下来,针对文心 5.0 Preview 的几大突出能力,机器之心进行了一番测试。

文本能力,一手实测

创意写作

首先我们把它放在「营销」场景中,看看它生产力如何。

我们选择同样以文本能力见长且在排行榜中并列第二的 claude-sonnet-4.5-20250929,在 LMArena 的「Side By Side」模型对比中进行横向测评。

你是一家顶级广告公司的创意总监。请为 [一个文本能力出众的模型] 策划一个为期 3 个月的线上营销战役。你的方案必须包括:一个核心营销洞察(Insight)。一个响亮的战役 Slogan。一封致所有创作者的公开信。一个 30 秒短视频的创意脚本大纲。

首先来比较核心营销洞察和 Slogan



可以看到两个模型的思路是一样的,都是以「表达自由」为核心,但文心 5.0 Preview 无论是措辞还是立意都更胜一筹。

Claude 的方案定位为「一个更懂你的工具」,这在功能上是准确的,但在品牌上是保守的。

文心 5.0 Preview 则更进一步,它抓住了「情绪价值」这一热门切口,将 AI 塑造成「灵感的合伙人」,完成了从功能到价值的跃升。其 Slogan「心有所思,言必达意」也更富诗意和品牌格局。

接下来看看致创作者的公开信



Claude 写得非常精准、真诚,它适合打动每一个需要用文字沟通的人(包括但不限于学生、职场人、创业者、运营人员等)。它强调的是「理解」和「表达」。

但文心 5.0 Preview 没有停留在「帮你把话说清楚」的浅层功能,而是直指创作者的灵魂。它的一句话,就直击了当下 AI 时代最核心的焦虑:关于原创性、灵魂是否会被稀释的焦虑。

你所珍视的,是字里行间的独特风骨,是逻辑链条中的严谨思考,是故事背后独一无二的灵魂。这些,是任何机器都无法赋予的。

它不只是在提供一个工具,而是定义了一种未来:AI 越强大,人的创造力反而越珍贵、越自由。

然后是很有挑战性的部分:短视频创意脚本大纲



这是文心 5.0 Preview 最让人惊艳的部分,它创作了一个非常成熟的脚本,其专业程度令人惊艳。方案中包含了画面内容、剪辑点、特效、音效、台词等一切执行所需的核心要素。

复杂长问题理解

我们设定了一个常见的应用场景:为 AI 模型提供一份产品介绍,让其扮演客服,根据这份介绍回答我们的问题。

为了保证测试的客观性和专业性,我们首先让 Gemini 2.5 Pro 辅助设计了标准问题及答案。然后,我们重点考察文心 5.0 Preview 的表现,并使用 claude-sonnet-4.5-20250929 的回答进行横向对比。

第一轮:直接信息检索

考察模型是否能从文档中准确、高效地找到信息。





可以看到,两个模型都回答正确,但文心 5.0 Preview 非常贴心地补充了「和一个大苹果的重量差不多」的直观感受。这个小小的细节极大提升了用户体验,让人能更快理解产品特性,展现了超越简单「检索」的服务意识。

第二轮:条件与推断

考察模型是否能理解用户的特定场景和隐含条件,并作出正确判断。





依然都回答正确,但在风格上出现了分化。文心 5.0 Preview 回答简洁清晰,直奔主题,准确解决了用户的担忧。而 claude 的回答更具网感,风格更口语化。

第三轮:「负面」查询与边界测试

考察模型如何处理文档中未包含的信息(边界),以及如何处理用户的潜在误解。





两个模型都能识别出文档中未提及的信息,不过这里 claude 额外识别到了 15 秒的恢复时间。

总的来说,在「客服」这个特定角色的扮演上,文心 5.0 Preview 的回答非常清晰、专业且展现了较高的服务意识。

指令遵循

我们继续测试文心 5.0 Preview 的指令遵循能力。这项能力是衡量一个模型是否「可靠」和「可控」的关键指标,直接决定了它在专业领域的实用价值。

我们先从一个简单的「回避型」指令开始。

写一篇关于苹果公司(Apple)的简短介绍,但不要提到「iPhone」或「乔布斯」。



轻松完成。模型准确识别并执行了「不要提 X」的负向指令,这是当今主流大模型都应具备的基础能力。

接下来,我们大幅提升了难度,设计了一个多层、反直觉、且包含元指令的复杂任务。同时继续用 claude-sonnet-4.5-20250929 做对比。

请你写一段关于「月球」的描述,至少 100 字。【【【绝对刚性约束】】】:在你的全部回答中,一个「的」字都不允许出现。请在回答后,另起一行,用「【合规性检查:是/否】」来说明你自己是否做到了。在完全不用「的」字的限制下,模型生成的描述依然保持了相当高的可读性和信息密度。内容涵盖了月球的身份、外观、地貌、环境、科研价值和人文意义。不过如果不把标点符号算成字数,这一段没有满足至少 100 字的要求。



两个回答都完全没有使用「的」字,并准确地在回答之后另起一行进行合规性检查。文心 5.0 Preview 胜在文笔意境,而 claude 胜在信息密度。

让我们再升级一次难度。

请你写一段关于「北京」的介绍,正文(不含编号和标题)至少 150 字。在撰写时,必须同时满足以下所有【【【绝对刚性约束】】】: 全文不允许使用「的」字。 全文不允许使用逗号(「,」)和顿号(「、」)。 (注:可以使用句号「。」或分号「;」等其他标点) 回答必须明确分为三个带编号的段落。
(例如:「1. ...」「2. ...」「3. ...」) 【元指令(自我审计)】在你的回答(三个段落)全部完成后,请另起一行,使用「【自我审查】」作为标题。然后,你必须准确报告你在这篇介绍中使用了多少个「的」字,以及多少个「逗号和顿号」。你必须严格按照以下格式报告: 【自我审查】 违规字「的」使用:[此处填写数字] 次 违规标点「,、」使用:[此处填写数字] 次



这两个回答都体现了优秀的指令遵循能力。它们不仅理解了所有复杂的、反直觉的规则,还精确执行了「自我定量审计」的元指令。和前面一样,文心 5.0 Preview 语言更具可读性和「文采」,而 claude 信息密度更高。

百度,凭什么 back?

上文实测让我们亲身感受到了文心 5.0 Preview 的不俗实力,其能力的快速进化显然不是单点突破的结果,背后支撑着的是百度构建的「芯片-框架-模型-应用」四层全栈布局。

纵观当前全球领先的大模型厂商,百度是为数不多拥有 AI 技术全栈架构的公司,从算力到算法、从模型应用到生态建设,已经形成了一条成熟、贯通的技术闭环。

我们注意到,在框架层,其飞桨(PaddlePaddle)深度学习平台扮演着重要角色。据了解,该平台是国内较早自主研发的深度学习框架,提供了分布式训练与推理能力。百度方面的信息显示,飞桨与文心的联合优化(包括训练吞吐、分布式扩展、多模型结构混合并行和硬件通信等),是其模型性能提升的技术基础之一。

根据公开数据,飞桨核心框架目前已更新至v3.2版本,在大模型训练、硬件适配和生态支持上进行了升级,并同步更新了大模型开发套件 ERNIEKit 和高效部署套件 FastDeploy。截至 2025 年 9 月,其公布的飞桨文心生态开发者数据为 2333 万,服务企业达到 76 万家。

应用层,可以看到百度正依托文心大模型能力,构建其产品矩阵,试图覆盖内容、搜索、办公、开发等多元场景。其代表性产品包括 C 端智能助手文心、B 端百度智能云千帆大模型平台以及百度文库 AI 助手、智能办公平台如流、智能代码助手文心快码等。从布局上看,百度似乎希望通过这些应用层的拓展,推动其技术在产业中落地。

芯片层,百度强调了其自研的昆仑芯。根据报道,昆仑芯三代万卡集群已于今年年初点亮,其目标是为大模型训练与推理提供算力支持,特别是保障「集群效能最大化」下的训练吞吐与通信效率。

综合来看,这四个层面的协同演进,构成了百度在通用人工智能领域布局的核心逻辑。

此次,模型层的文心 5.0 Preview 在 LMArena 文本榜单上获得国内第一的排名,可以被视为百度在 AI 底层架构上长期技术投入后的一次阶段性成果展现。同时,行业内有一种观点认为,这也可能反映出中国 AI 技术体系正从「技术追赶」向「能力引领」的阶段过渡。

结语

进入到 11 月,国内大模型依然没有停下继续突破的脚步,好消息一个接着一个。

月之暗面等国产模型中相继发布了 Kimi K2 Thinking 等推理模型,而在通用模型赛道,百度文心 5.0 Preview 凭借「全球并列第二、国内第一」的成绩宣示了自己的强势回归。

据说在下周举办的百度世界 2025 大会上,文心正式版将亮相

我们可以期待一下了。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

五个信号,看懂今年的机器人在“卷”什么

经济观察报 浏览 6505 08-11

黄一鸣把女儿送回老家,王思聪该出手了?

娱圈小愚 浏览 61 09-01

弗林斯:很惊讶沃尔特马德的转会费,要知道他曾被不莱梅免费放走

直播吧 浏览 71 09-01

T恤+高腰下装=显瘦天花板,比"露奶衫"高级100倍!

Yuki女人故事 浏览 3020 07-12

容情敌生3孩,暗中转移核心资产,施幼珍的“隐忍棋局”太厉害!

娱乐白名单 浏览 9668 07-23

明明年轻时很温柔,中年后却凶相毕露

负面黑洞 浏览 5998 07-15

甘肃银行入行3年的行长拟获提拔、为建行系出身,董事长退休在即

湘财Plus 浏览 3144 07-31

哈登终于不用背锅!快船遭雷霆逆转吞5连败 小卡三节22+8被迫打卡

颜小白的篮球梦 浏览 30 12-19

女主播跳槽被虎牙索赔2000万失业房被封 曾月入10多万

封面新闻 浏览 103 09-26

雷军回应小字营销:确实是行业陋习 马上就改

网易汽车 浏览 14 01-04

蔚来又降价了!标配长续航电池,官降3.8万元

第一财经资讯 浏览 79 08-30

字母哥:超想要文班的第一张新秀卡收藏价值将媲美库詹乔

直播吧 浏览 6980 08-05

业主2000万买新房质量问题有130多处 维修2年仍未解决

新民晚报 浏览 48 11-04

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 78 11-17

38岁何洁近照曝光,与老公用餐甜蜜

小seven的囧囧啊 浏览 6482 07-14

夏天穿衣越简单越省力!这27套日常穿搭不容错过,显瘦又舒适

静儿时尚达人 浏览 6047 07-19

友谊赛战旧主!凯恩:十分期待,与热刺交手总是非常特别

直播吧 浏览 2704 08-05

郑爽在美国越混越差!打官司诉讼费都掏不起,前夫张恒比她还沦落

萌神木木 浏览 21 12-29

佛山超3000人确诊基孔肯雅热 27岁患者:发烧关节疼痛

潇湘晨报 浏览 657 07-25

沃尔沃发EX60预告图 全新平台打造/明年年初上市

网易汽车 浏览 8034 06-26

润田创始人之妻称老公结婚4次5个小孩:卖水的可挣钱了

每日经济新闻 浏览 5692 07-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3