距离五一劳动节还有
:
:
:
设为首页收藏本站 防骗检测 中文 英语 日語 韩语 劰载中...

 找回密码
 立即注册

微信扫一扫,快捷登录!

只需一步,快速开始

手机扫码登录更安全

搜索
热搜: 活动 交友

小喇叭+ 发布

系统消息:飘摇C已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
04-05 00:29
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
04-05 00:08
系统消息:ysrzzty已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-28 17:34
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-27 00:06
系统消息:心灵瑜伽已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-24 22:22
系统消息:獒妹妹已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-21 22:44
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-17 00:04
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-11 00:06
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-06 23:37
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-02 21:58

今日头条

查看: 436|回复: 0

国模崛起 GLM-5.1编程能力实测:首次超越Sonnet 4.5 Thinking ...

[复制链接]
论坛新秀
等级 1
0
累计签到
1
抢沙发
0
被点赞

5

主题

1

回帖

21

积分
积分
21
  • 0
  • 0
  • 收到
  • 送出
时空年龄
0.1岁
中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
发表于 3 小时前 | 显示全部楼层 |阅读模式 来自 中国广东省深圳市南山区
一身戎装走天涯
一身戎装走天涯
中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
快科技3月29日消息,国产AI大模型迭代速度越来快,智谱前几天发布了GLM-5.1,距离5.0发布也就一个多月时间,而且马上就向GLM Coding Plan全部用户(Lite/Pro/Max)开放。
GLM-5.1的官方介绍并不多,提升也主要是AI编程能力上的,GLM-5.1从GLM-5.0的35.4分提升到了45.3分,距离最强的Opus 4.6也只有2.6分差距。
但是官方公布的测试往往被人质疑,有刷榜的嫌疑,最终表现还是要看用户的实际使用,好消息这方面也确实真的强,而且远超之前的国模。
知乎上的程序员大佬Toyama nao​搞了个LLM Benchmark Dashboard榜单,算是民间个人版的AI编程测试,涉及桌面端、移动端及前端等多个项目的开发,具体如下:
C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。
D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。
每个项目要跑10-12轮prompt提示词,每一轮prompt包含完整的要求和考察点,平均每个工程的prompt字数在1500到2000字左右。

测试的结果如上所示,根据他的说法,GLM-5.1 成为第一个通过他全部测试工程的国产模型,其次恭喜GLM-5.1 是第一个正式超越Sonnet 4.5 Thinking的国产模型。
也就是说,GLM-5.1目前超越Opus 4.6及Sonnet 4.6是不现实的,这两个是Claude系列的旗舰大模型,但国模超越Sonnet 4.5 Thinking的含金量在开发者眼里也是实打实的。
Toyama nao表示 GLM-5.1的大幅扩展了编程的适应范围,不再是前端only战神,也不只是oneshot 样子货,是可以在复杂工况下充当编程主力。
当然,GLM-5.1也不是没有问题,他提到的是超长上下文时容易幻觉爆炸,如果遇到2轮改不好一个问题,不要抱有侥幸,直接重开。

再补充一个实际的例子,前几天刚发布的时候也有Linux.do社区的大佬Mozi做了测试,做的是魔方模拟器,之前国内的大模型都不行(当然大部分国外模型也不行,只有个别顶流模型可以),现在GLM-5.1也做对了。

总的来看,GLM-5.1这次的发布很迅速但内容简短,但实测下来编程能力的提升确实明显,整体水平超越了Sonnet 4.5 Thinking的水平,距离顶流模型还差一点距离。
AI编程是当前AI商业化上最成熟的一条路,国产模型需要在这方面发力,GLM的提升也是肉眼可见,不过还是那句话,成绩可惜,但决定这条路走得多远还有很多模型能力之外的问题。
由于需求太大,智谱的Coding Plan最近争议不断,涨价还是小问题,毕竟涨了之后还是比Claude系列便宜太多,但算力不够导致用户体验下降,这些都是需要极大投入才能缓解,智谱显然会重视,只是这个过程对用户来说有点磨人。
【本文结束】如需转载请务必注明出处:快科技
责任编辑:宪瑞

@版权声明

1、本网站文章、帖子等仅代表作者本人的观点,与本站立场无关。
2、转载或引用本网版权所有之内容须注明“转自(或引自)网”字样,并标明本网网址。
3、本站所有图片和资源来源于用户上传和网络,仅用作展示,如有侵权请联系站长!QQ: 5131626。

情绪雷达
载入中
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×
简体中文
繁體中文
English(英语)
日本語(日语)
Deutsch(德语)
Русский язык(俄语)
بالعربية(阿拉伯语)
Türkçe(土耳其语)
Português(葡萄牙语)
ภาษาไทย(泰国语)
한어(朝鲜语/韩语)
Français(法语)

手机版|小黑屋|一身戎装走天涯 ( 晋ICP备2026001322号-1|晋公网安备14088202000143号 ) |网站地图 中文 英语 日語 韩语

本站支持IPv6网络

GMT+8, 2026-4-22 12:26 , Processed in 0.266903 second(s), 121 queries .

Powered by YsrzztY X3.5 Licensed

© 2025-2026 本站支持 IPv6 网络 .

快速回复 返回顶部 返回列表