关闭广告

今夜,国产AI最强一击!智谱发布GLM-4.5,新一代模型狙击OpenAI

新智元2025-07-29 00:00:022424人阅读

新智元报道

编辑:定慧 犀牛

【新智元导读】智谱新一代旗舰「融合大模型」GLM-4.5,集成推理、代码与智能体能力,实现原生智能体模式。该模型具备极高性价比与生成速度,支持全栈Agent开发、网页创作、PPT生成等多功能,实际表现惊艳。

GPT-5还没影子,但国产这边一个「融合大模型」已经炸出来了!

智谱「悄悄的」发布了最新的旗舰版本模型GLM-4.5,这是一个全新的「融合大模型」,主打Agent Foundation Model

相较于其他模型竞相「卷参数、刷榜单」,GLM-4.5这次选择了不一样的路线——不跟风,不内卷,而是直接「狙击GPT-5」

GLM-4.5融合ARC(Agentic/Reasoning/Coding)能力,将推理、编程与Agent能力原生整合,走向更通用、更高效的AI形态。

体验地址:https://chat.z.ai/

都说GPT-5也要融合o系列、GPT系列和Agent能力,但是奥特曼一直跳票,没想到被我们「领先了」。

值得一提的是,OpenAI还在6月25日公开叫板智谱,在一篇名为《Chinese Progress at the Front》的文章中,OpenAI将智谱(而不是DeepSeeek)列入全球竞争对手,出乎所有人意料。

这也说明智谱已经可以威胁到OpenAI的发展。

既然已经公开叫板,智谱不再低调了,这个最新模型就要干翻o3!

最近,有人爆料GPT-5在WebDev Arena上有个匿名为「龙虾」的测试版。说是测试后效果惊人,用同样的提示词左边是GPT-5生成的页面,右边是Grok 4版本,看起来确实GPT-5生成的页面更「炫酷」。

但是用GLM-4.5实测后,我们发现这个「融合模型」强得离谱,同样的提示词,随手「二连抽」的效果都是SSR级别

这个效果还是可以交互的页面,画面表现能力和复杂程度已经远超Grok 4,和GPT-5都不相上下。



提示词:Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.

在GLM-4.5上我们做了各种测试,然后就一发不可收拾了,这两天已经玩嗨了!

GLM-4.5不仅能整活做网站,还能一键生成PPT,还新增「Full-Stack全栈功能」可以实现在线Agent,而且完成任务的源代码还能直接下载!

对于开发者来说,仅需两行代码就可以将GLM-4.5丝滑接入到现在最火的代码工具Claude Code中。

从此可以放弃又贵又不稳定的Claude api,体验到性能强劲、很便宜的GLM-4.5。

而且!智谱这次发布GLM-4.5下足了本钱,「智谱疯狂星期一,V我50,即可包月无限量调用API」!先到先得!

它每次生成的效果都远超预期!

而且非常的快,能明显感受到任务吐「token」的速度遥遥领先。

尤其是这个模型给人的感觉就好像是打通了任督二脉,一下子融合了「智能体、推理和代码能力」的所有能力。

就好像只用一个模型,就同时拥有了Cladue Code+Manus+Reasoning Model的所有能力。

再也不用像OpenAI的ChatGPT,每次还要选择使用哪个模式。

这才像未来AI该有的样子,AI就应该像钢铁侠「贾维斯」一样,只需Chat!

使用GLM-4.5最直接的感受就是,太强了!

在模拟飞行器从地球飞往火星的过程,完全按照太空力学中的「霍曼转移轨道」(Hohmann transfer orbit)来构建。

要知道这个Prompt当时很多网友实测Gemini 2.5、Claude和Grok时都没有实现。

这个页面用到了模型最新的Full-Stack全栈能力,完全就是一个在线Agent,这才是真正的Vibe Coding!

为综合衡量模型的通用能力,智谱选择了最具有代表性的12个评测基准,包括MMLU Pro、AIME24、MATH 500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3和BrowseComp。

综合平均分,GLM-4.5取得了全球模型第三、国产模型第一,开源模型第一



融合「更多」能力,实现最佳性能

GLM-4.5为何选择将「融合」作为主攻的方向?

所有大模型的目标都是为了实现AGI,但是关于如何定义AGI,学界还没有达成统一。

从第一性原理出发,一个模型能够在不影响原有能力的情况下,融合更多的通用智能能力一定是一个方向。

GLM-4.5就是对此理念的首次完整呈现。

GLM-4.5首次在单个模型中实现了推理、代码、Agentic等多能力原生融合

  • GLM-4.5在Agentic Coding盲测中实现国内最佳

  • GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA

GLM-4.5采用混合专家(MoE)架构,包括

  • GLM-4.5:总参数量355B、激活参数量32B

  • GLM-4.5-Air:总参数量106B、激活参数量12B

GLM-4.5支持thinking(推理增强)与non-thinking(通用生成)两种工作模式,兼顾推理能力与通用响应效率。

GLM-4.5的参数量为DeepSeek-R1的1/2、Kimi-K2的1/3,但在多项标准基准测试中表现得更为出色。

这得益于GLM模型更高的参数效率。

GLM-4.5-Air以106B总参数/12B激活参数实现了重要突破,在Artificial Analysis等推理基准上超越Gemini 2.5 Flash、Qwen3-235B、Claude 4 Opus等大模型,性能位列国产前三。

在SWE-Bench Verified等图谱中,GLM-4.5系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5系列实现了最佳性能。


速度和性价比,国内SOTA

GLM-4.5系列也在调用成本和生成效率上实现突破:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens远低于主流模型定价。


同时,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求。


不过现在的新模型评测跑分也就看个热闹,真正还得要实测见真章!

就拿上面「模拟飞行器从地球飞往火星,并且完全遵循现实世界物理规律」来测试,大部分只写前端代码的模型几乎都很难一次搞定。

我们先让GLM-4.5先不要考虑真实物理参数,而是演示完整的运动路径。

GLM-4.5一下子就理解了!

GLM-4.5画出了飞行器飞往火星的演示过程,并且还提供了两种视角。

一种是全局视角。

另一种是「第一视角」,你可以跟随飞行器从地球飞往火星。

GLM-4.5还贴心的在飞行器后面「画了」一个喷火的尾焰,不要太绝!

但是,这依然只是展示,如果想要让飞行器完全按照真实飞行来构建呢?

这里就需要选择Full-Stack!

通过Full-Stack,GLM-4.5就能构建一个完整的应用。

同样的提示词,使用全栈功能后,最终的效果要比单纯的写一段前端网页代码要Solid太多。

这个比例基本也符合我们对于广袤宇宙的认识,一艘飞行器孤独地前往火星。

选中全栈功能,你甚至可以获得这个项目所有源代码!这不就是相当于一个Cursor了吗?!

关键在于,这些都是免费开源的!

丝滑接入Claude Code

GLM-4.5的代码能力如此之强,你还可以通过一个兼容Anthropic API的端点将其与Claude Code集成

只需要两行代码,就能用GLM-4.5来驱动你的Claude Code了。

方法也十分简单。

首先,申请一个智谱开放平台API Key。

地址:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys

安装Claude Code后,运行以下两行代码即可。

exportANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic 
exportANTHROPIC_AUTH_TOKEN="your bigmodel API keys"

看到这个界面后,就可以使用啦。

我们用最常见的贪吃蛇游戏来测试一下以GLM-4.5为核心的Claude Code效果如何。

中间经过一次对话调整后,GLM-4.5成功生成一个相当炸裂的、完全符合提示要求的游戏!

游戏不仅画面精美、计分准确,得分后还会有一个十分自然的动画效果,非常惊艳。

AI PPT:打工人的最佳「伴侣」

此次GLM-4.5还有一个功能也惊艳到了我们。

就是这个AI PPT(AI Sliders)功能!

实际测试后,真的和别的Agent制作PPT的感受完全不同!

下面这个是默认的例子,你可以看到整个PPT的配色和风格并不是像其他Agent的单一母版背景。

并且制作好的PPT也可以一键发布,分享给任何人。

PPT生成后可一键发布

在测试中,只上传了一张图片,就能让GLM-4.5「看图说话」,比如这张很抽象的把「奥特曼+龙虾+GPT-5」放一起封面。

最终生成PPT演示

GLM-4.5能够准确的把握到图片中信息,并且还调用了搜索引擎完善了内容。

不论是「整活」测试代码能力,还是「正经」的完成PPT制作,GLM-4.5都远超预期。

使用下来最大的感受,「如丝般顺滑」,每一个任务都几乎没有卡壳,也不用多次抽卡,几乎每个任务都能有效完成。

并且由于GLM-4.5在模型中融合ARC能力(Agentic / Reasoning / Coding),几乎任何问题都可以在「当前聊天框」里解决。

比如我可以让GLM-4.5帮我临时制作一个生辰八字计算器。

在ARC和Full-Stack能力的加持下,日常需求直接就可以转化为产品,不仅自己可用,而且可以分享出去。

大模型的「军备竞赛」发展至今,光是听说的模型已经两只手都数不过来了,ChatGPT、Gemini、Claude、Qwen、DeepSeek、GLM、Kimi…

OpenAI的ChatGPT更是给模型起了多个名字:GPT-4.1、GPT-4.5、o1-pro、o3、o3-pro、o4-mini。。。简直让人无从下手。

但是很多模型都忘记了AI原本是要「服务于人」的初衷,变成了刷榜比赛,比如Meta的Llama 4的滑铁卢就因为刷榜丑闻而起。

这次,智谱GLM4.5和OpenAI GPT-5「心照不宣」的都决定采用「融合大模型」路线。

放弃刷榜和无聊的命名游戏,回归到真正追求AGI的初心。

就像智谱所说,真实体验永远比刷榜更重要。

目前,GLM-4.5的API已上线开放平台BigModel.cn,可以一键兼容Claude Code框架。 也可以上智谱清言(chatglm.cn)和Z.ai免费体验满血版。

国内用户:

https://docs.bigmodel.cn/cn/guide/develop/claude

海外用户:

https://docs.z.ai/scenario-example/develop-tools/claude

体验地址:

https://chat.z.ai/

https://chatglm.cn

Github仓库:

https://github.com/zai-org/GLM-4.5

模型仓库:

HuggingFace:

https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

ModelScope:

https://modelscope.cn/collections/GLM-45-b8693e2a08984f

同时,智谱还公布了实测的52道题目及Agent轨迹,供业界验证。


Agent轨迹:

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

参考资料:

https://chatglm.cn/

https://chat.z.ai/


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

人民日报:警惕日本战略走向的危险转向

人民网-人民日报 浏览 31 11-17

价值10万的皮肤“到手价”仅6000元?腾讯手游《金铲铲之战》“翻车”

国际金融报 浏览 24 12-19

45岁殷桃带妈妈吃火锅,素人男友罕露面

包饺子ai剪辑 浏览 4728 08-21

赵丽颖离婚4年,才发现冯绍峰是赢家

老沮系戏精北鼻 浏览 4793 08-09

年底交付 兰博基尼Temerario即将国内上市

车质网 浏览 3 01-28

3-0!世锦赛东道主出局 日本女排连续6届进8强 1/4决赛对手已出炉

侃球熊弟 浏览 87 08-30

不要怀疑任何一张能进内娱的脸

时尚COSMO 浏览 1888 07-21

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者 浏览 61 10-22

一碗面引发的纠纷

餐饮老板内参 浏览 104 08-22

美国击沉4艘委内瑞拉船 俄罗斯掀桌子拿出重要协议

南宫一二 浏览 82 09-21

发球都不会的球员混进ITF职业比赛!引国外网友和专家愤怒

网球之家 浏览 13 01-09

倍耐力官方:下赛季取消C6;所有车队将在12月9日测试新胎

懂球帝 浏览 37 11-25

北京移动用户吐槽早上没网络导致“没打上卡”!回应称正排查

南方都市报 浏览 9043 08-13

百度电商,赌性坚强

蓝鲸新闻 浏览 2754 08-11

影响牛市最关键的一个信号,来了

米筐投资 浏览 91 08-23

宣云为潘玮柏庆生,首晒女儿正脸照,长得像爸又像妈,还辟谣二胎

萌神木木 浏览 3167 08-07

今年秋冬的皮裙流行“剪一刀”,怎么搭都好看!

LinkFashion 浏览 61 10-28

外媒:巴基斯坦一哨所遭武装分子袭击 6名士兵死亡

环球网资讯 浏览 20 12-10

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

静儿时尚达人 浏览 8 01-21

OpenAI测试新一代AI智能体,依托GPT-5可以多领域任务处理

环球网资讯 浏览 69 09-26

电视台女记者采访时被打受伤设备受损 涉事公司回应

澎湃新闻 浏览 6918 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3