距离五一劳动节还有
:
:
:
设为首页收藏本站 防骗检测 中文 英语 日語 韩语 劰载中...

 找回密码
 立即注册

微信扫一扫,快捷登录!

只需一步,快速开始

手机扫码登录更安全

搜索
热搜: 活动 交友

小喇叭+ 发布

系统消息:ysrzzty已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-28 17:34
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-27 00:06
系统消息:心灵瑜伽已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-24 22:22
系统消息:獒妹妹已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-21 22:44
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-17 00:04
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-11 00:06
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-06 23:37
系统消息:admin已经连续答对3道难题,逆天学霸谁与争锋?!#每日答题#
03-02 21:58
神秘人:匿名消息只有前台管理员可以看到用户名,后台则直接可见。
01-25 10:01

今日头条

查看: 983|回复: 0

国模崛起 GLM-5.1编程能力实测:首次超越Sonnet 4.5 Thinking ...

[复制链接]
论坛新秀
等级 1
0
累计签到
0
抢沙发
0
被点赞

1

主题

0

回帖

10

积分
积分
10
  • 0
  • 0
  • 收到
  • 送出
时空年龄
0.1岁
中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
发表于 昨天 02:43 | 显示全部楼层 |阅读模式 来自 中国广东省深圳市南山区
<
AI总结
AI总结中
快科技3月29日消息,国产AI大模型迭代速度越来快,智谱前几天发布了GLM-5.1,距离5.0发布也就一个多月时间,而且马上就向GLM Coding Plan全部用户(Lite/Pro/Max)开放。
eynkiwmdgkmjkw

GLM-5.1的官方介绍并不多,提升也主要是AI编程能力上的,GLM-5.1从GLM-5.0的35.4分提升到了45.3分,距离最强的Opus 4.6也只有2.6分差距。
  • 不影响正文阅读

  • 但是官方公布的测试往往被人质疑,有刷榜的嫌疑,最终表现还是要看用户的实际使用,好消息这方面也确实真的强,而且远超之前的国模。wsbwmtegpmzsnmntfnkqrvxnwdxs
    知乎上的程序员大佬Toyama nao​搞了个LLM Benchmark Dashboard榜单,算是民间个人版的AI编程测试,涉及桌面端、移动端及前端等多个项目的开发,具体如下:
  • 不影响正文阅读

  • C工程:以swift语言编写面向macOS的OpenGL渲染器,考察小众语言,图形领域知识,重交互。jhkhokyupwwtsedkazdkhsogmgkemxmobwetfbsbckq
    D工程:基于Flutter开发一款全功能的聊天软件,同时以golang开发对应服务端。考察移动端开发,数据库,多种网络通信处理。
  • 不影响正文阅读

  • E工程:自选技术栈,开发纯网页端视频剪辑应用。考察前端技术栈,音视频处理,复杂状态管理等。
    xlammtpginpqmohqwkurcgnqhahjmzxdnvhhpicompziu

    每个项目要跑10-12轮prompt提示词,每一轮prompt包含完整的要求和考察点,平均每个工程的prompt字数在1500到2000字左右。joldnmvzgiqnp
  • hljtnafjhlirnwzodqzshplkpfcwkgyxvsuobmmdbhddwfj

  • 测试的结果如上所示,根据他的说法,GLM-5.1 成为第一个通过他全部测试工程的国产模型,其次恭喜GLM-5.1 是第一个正式超越Sonnet 4.5 Thinking的国产模型。jhkhokyupwwtsedkazdkhsogmgkemxmobwetfbsbckq
    也就是说,GLM-5.1目前超越Opus 4.6及Sonnet 4.6是不现实的,这两个是Claude系列的旗舰大模型,但国模超越Sonnet 4.5 Thinking的含金量在开发者眼里也是实打实的。sjrlesawgmfaihwdrqiwjpgpaxdcplm
    Toyama nao表示 GLM-5.1的大幅扩展了编程的适应范围,不再是前端only战神,也不只是oneshot 样子货,是可以在复杂工况下充当编程主力。wsbwmtegpmzsnmntfnkqrvxnwdxs
    当然,GLM-5.1也不是没有问题,他提到的是超长上下文时容易幻觉爆炸,如果遇到2轮改不好一个问题,不要抱有侥幸,直接重开。
  • trvrdlcbcqbjampobtwsf

  • ulwdwniafarrcpbbcesyznzytduoibfhmasxtglgcxlszyacq
    再补充一个实际的例子,前几天刚发布的时候也有Linux.do社区的大佬Mozi做了测试,做的是魔方模拟器,之前国内的大模型都不行(当然大部分国外模型也不行,只有个别顶流模型可以),现在GLM-5.1也做对了。不要乱来哦
    不要乱来哦
    总的来看,GLM-5.1这次的发布很迅速但内容简短,但实测下来编程能力的提升确实明显,整体水平超越了Sonnet 4.5 Thinking的水平,距离顶流模型还差一点距离。
  • hljtnafjhlirnwzodqzshplkpfcwkgyxvsuobmmdbhddwfj

  • AI编程是当前AI商业化上最成熟的一条路,国产模型需要在这方面发力,GLM的提升也是肉眼可见,不过还是那句话,成绩可惜,但决定这条路走得多远还有很多模型能力之外的问题。
  • trvrdlcbcqbjampobtwsf

  • 由于需求太大,智谱的Coding Plan最近争议不断,涨价还是小问题,毕竟涨了之后还是比Claude系列便宜太多,但算力不够导致用户体验下降,这些都是需要极大投入才能缓解,智谱显然会重视,只是这个过程对用户来说有点磨人。

    buqusberbyjofkimzpmzxoxyitjeybwefbnkljqpj哈哈


    【本文结束】如需转载请务必注明出处:快科技pyeojcckphbxu
    责任编辑:宪瑞sjrlesawgmfaihwdrqiwjpgpaxdcplm
    不要乱来哦
    你好啊

    ouztcdmzkgwjcmvevzpytffehmrblwiwb

    这是干扰码

    哈哈

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?立即注册

    ×

    @版权声明

    1、本网站文章、帖子等仅代表作者本人的观点,与本站立场无关。
    2、转载或引用本网版权所有之内容须注明“转自(或引自)网”字样,并标明本网网址。
    3、本站所有图片和资源来源于用户上传和网络,仅用作展示,如有侵权请联系站长!QQ: 5131626。

    情绪雷达
    载入中
    中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司
    回复 打印我要上头条 中国广东省深圳市南山区 深圳市腾讯计算机系统有限公司

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    ×
    简体中文
    繁體中文
    English(英语)
    日本語(日语)
    Deutsch(德语)
    Русский язык(俄语)
    بالعربية(阿拉伯语)
    Türkçe(土耳其语)
    Português(葡萄牙语)
    ภาษาไทย(泰国语)
    한어(朝鲜语/韩语)
    Français(法语)

    手机版|小黑屋|一身戎装走天涯 ( 晋ICP备2026001322号-1|晋公网安备14088202000143号 ) |网站地图 中文 英语 日語 韩语

    本站支持IPv6网络

    GMT+8, 2026-4-2 06:09 , Processed in 0.321722 second(s), 89 queries .

    Powered by YsrzztY X3.5 Licensed

    © 2025-2026 本站支持 IPv6 网络 .

    快速回复 返回顶部 返回列表