无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: ...
2025-08-16 0
凌晨 2 点 25 分,作者顶着熊猫眼,把智谱最新开源的 GLM-4.5V 大模型狠狠测了一遍,结论是——这 106B 参数的多模态“怪兽”不仅看得懂、算得快,还干得漂亮。保姆级教程、安装包、API 白嫖指南全打包,5 分钟让你的电脑也长出 AI 眼睛和大脑。
我真是有点服,智谱又又又发布了新模型。
然后又给开源了。生产队的驴都不带这么卷的,我都怀疑智谱是不是嗑药了。
7 月初开源 GLM-4.1V-Thinking,上周开源 GLM-4.5 和 GLM-4.5-Air,今天又开源了个 GLM-4.5 V。
晚上我听了他们的直播发布会,几个青涩的年轻人给介绍了这次发布的模型,时间很短,但却不简单。
我想第二天一定会有超级多的人来测,来玩,导致卡的无法使用。基于前车之鉴,我还是打算今晚就给测完,痛快的体验下它的能力,
现在是凌晨 2 点 25,终于测完了,还好,这次没到五点,说明有进步,不然明天去上海怕是顶不住。
先说我测试下来的结论吧:GLM-4.5V 模型在多模态能力上表现很好,特别是在图像/视频理解、视觉定位上表现优异。
现在同样可以在 z.ai 体验,但作为开发者,我更倾向于用 API 方式来验证一些东西。
恰好他们开源了个桌面助手 vlm-helper,于是以下我所有的测评都基于该桌面助手。
我也会在文章后面给出该桌面助手的安装包以及教程。
当然,按照惯例,在放真实测评前,还是要放一放模型的跑分情况(虽然大家都看麻了)
可以看出在 42 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解及 GUI 任务等常见任务。
据官方介绍,GLM-4.5V 是基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,是一个拥有106B总参数,12B激活的视觉推理模型。
但口说无凭,真实体验如何,还得实际测试。下面开整。
官方直播的视频放出了复刻带有交互的知乎网站。而且是通过录屏的方式,看着挺厉害的。
但像这类公开的网站早就不知道被大模型训练了多少次了,参考意义不大。
于是,我灵机一动,何不复刻下我的开源项目 PmHub?这够小众吧。
于是,我也对着 PmHub 录了个屏,也就是正常点击页面的功能。然后吧视频丢给 vlm-helper,GLM-4.5 V 识别理解视频内容和操作,然后按照要求输出代码。
我的提示词是这个:
请根据提供的多张网页 UI 截图,复刻出完整的交互式网页,实现整个网页的点击、跳转、交互等功能,请注意,每一张UI截图都会对应某个操作,请务必实现点击、跳转等交互操作,不要在thinking过程中思考html code怎么写。最终返回一个完整html code。
我把前端效果做了个对比:
就单单从前端复刻能力上,没啥意思,因为像 Weavefox 和same.new 这样的工具做的细节会更到位。
但就从视频理解整个页面交互,这个就很吊了。这种感觉就好像 GLM-4.5 V 长了个眼镜,又带了个大脑,能看能理解,最后还能咔咔一顿编码输出。
下面是对多模态能力进行测试,但因为是 AI 桌面助手,我觉得在我们的测评中还是要以实际的工作学习场景展开。
所以以下 case,均模拟真实需求场景。
最近在厦门抽了中了个手机,一直想着买个手机壳,但一搜,就蹦出一堆出来,容易让人挑花了眼。
我其实就一个需求,选个性价比高的,就够了。
于是我一截图,输入需求然后一回车,GLM-4.5 V 就给我推了个最具性价比的手机壳。
这里考察的是模型对图片的理解能力,以及逻辑计算能力。GLM-4.5 V 表现不错。
我每天对着电脑要花费非常多的时间在微信上,有时候是工作,有时候是摸鱼吹水。
就比如在吹水群,好朋友 kk 碰到奇葩的抱怨,作为钢铁直男,我一时不知道该怎么回复好。
于是我让桌面助手捕捉我的屏幕中微信聊天记录,它就给了我一个没那么尴尬的回复。
讲真,如果我要回,我估计是先破口大骂帮问候一下这奇葩,但 GLM-4.5 V 理解到了,此时,kk 或许更需要的是共情以及安慰。
虽然它还没法直接帮我发消息,但这个情商是比大多数直男都高的(包括老苍何)
朋友圈经常会看到旅游照,有时候除了羡慕之外,也特别想知道这是去的哪儿耍呀,但又不好意思评论区或者私信直接问。
生怕暴露了自己穷屌丝的本质,现在,我将朋友圈共享给 GLM-4.5 V,然后问它:这是哪儿。
GLM-4.5 V 凭借对图片特征的提取,能给出是哪里。
不瞒你说,就 kk 发的这个图,我一时还真没想到会是在青岛,虽然,我在青岛呆了 4 年。。。
顺带,让懂事的 GLM-4.5 V 给 kk 来个回复评论吧,真好,有了 AI,倒是省去了很多我不必要的思考。
虽然我是做软件的,我能理解很多网站为了安全加固,会喜欢搞比较麻烦的验证,来证明自己是个人。
就比如智谱他们自家的这个登录验证:
对于我这眼神不好的来说,每次还是挺费劲的。
现在好了,把这个丢给 GLM-4.5 V,它直接把答案给你标注出来,这家伙,配合上 Agent,不是全自动化绕过验证?
你感受一下:
真实道高一尺魔高一丈,估计智谱法务得好好加班研究研究应对之策了,不然像 12306 这种最痛苦的验证方式,不也能分分钟破解?
你还别说,基于此,我还真就做了个小工具,让你绕过所有的强制性验证。
除了图片理解,我觉得更难的是视频的理解能力,而最为重要的也是视频理解的能力。
因为我们的物理世界是三维的,而非二维的,对视频的理解,是通过 AGI 的重要手段。
下面看几个比较有用的 case:
上传一个 7 分多钟,大小 19.7 M 的 java 学习视频,来拷打一下:
让它帮我梳理总结下这个课程的内容:
总结的不错,可惜我当年学习 Java,没这方便。这个场景在学习办公下都非常有用。
我们可以总结会议内容,电视剧剧情,电影经典场面等。
我经常会逛 GitHub 充电学习,但很多的开源项目都是英文的,看起来不顺畅,就比如 GLM-4.5 V 这个开源项目,默认也是英文。
现在,我让桌面助手中的 GLM-4.5 V 直接帮我介绍这个项目,非常实用。
当然还有个场景就是翻译,对于非网页类的场景,翻译起来还真不容易,需要先截图,然后 OCR 识别,最后再找翻译工具。
这个过程一度很痛苦,现在不用,直接让桌面助手来处理,分分钟翻译好了。
我觉得还比较实用的场景是做表格/图表转换。
基于 GLM-4.5 V 的图像理解能力,能准确识别表格和图表信息,然后按照指定格式输出。
非常方便,而且不用工具切来切去,就用桌面助手就 OK。
GLM-4.5 V 的视觉定位能力很强,而且这个的应用场景会非常多。
比如我要在众多复杂的场景中,精确找到符合的人物:找到桥下的一条船,船上有两个人
反正这,我要找,确实得找半天。
再比如,在人多的商场,找到背着双肩包穿灰色短袖的年轻男子。
感觉 GLM-4.5 V 接入安防监控,会是非常好的场景啊。
我想 GLM-4.5 V 开源后,一堆的硬件落地产品又会出来了。
而且为了考考 GLM-4.5V 看图猜位置的能力,智谱让 GLM-4.5V 参加了图寻游戏的全球积分赛,和国内最顶尖的两万多名人类玩家真实对战。
GLM-4.5V 就击败了 99% 的玩家。
这个能力感觉是为了之后的 AutoGLM 铺垫的,也就是能通过看到的 GUI,配合 Agent,完胜指定的操作。
我录了个官方的视频介绍,不得不说,期待性直接拉满。
好啦,测评就结束了,你可以看到,这次 GLM-4.5 V 的更新,也同样的有点超出预期了。
下面,是如何部署 AI 桌面助手的教程,主打一个有手就行。
打开安装包直接安装。
安装包可以后台留言下载:vlm-helper
打第一次开会报这个错:
没关系,终端中输入以下命令执⾏安全限制解除命令,然后重启应用就好。xattr -rd com.apple.quarantine /Applications/vlm-helper.app
接下来,配置一下 API,点击右上角的设置,选择模型设置。(这里有个小 tips,一定要开启「智谱 Mass 模式」,当然默认就是开启的,不要手滑关掉就好啦)
点击右侧的获取 API Key,就会跳转到智谱的 BigModel 平台。
现在新用户可以免费领取 2000 万 tokens 体验包,够玩一阵了。
把新建的 API Key 复制到 Vlm-helper 客户端, 点击保存就算完成。
除此还可以进行应用设置和系统提示词设置。有不少快捷键还是很有帮助的。
先试试是否生效:
该说不说,回复真的好快。
这样就生效啦。
在 AI 的路上,有些人,用力的冲了。
但因为没短期获得他们想要的,他们又撤了。
但有另外一群人,他们从一开始就在冲。
不管外面的风雨如何变化,
他们始终相信 AGI 会到来,并为之不断努力。
我觉得智谱这帮人就是这样一群人。
当然,我也希望屏幕前的你和我同样也是这类人。
我们始终相信:AGI 一定会到来的。
本文由人人都是产品经理作者【汪仔6818】,微信公众号:【苍何】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关文章
金融界2025年8月16日消息,国家知识产权局信息显示,腾讯科技(深圳)有限公司取得一项名为“磁盘读写资源的分配方法、装置、设备及存储介质”的专利,授...
2025-08-16 0
数码博主我是阿兴爆料称,荣耀Magic8系列将推出四款机型,包括Magic8标准版、Magic8 Pro、Magic8 mini以及定位最高的Magi...
2025-08-16 0
中端市场也有许多接近全能的手机,512GB深受年轻人喜爱。大多数年轻人购买手机,都格外注重性价比,会对配置进行多面分析再去做选择,也会等到价格再次降低...
2025-08-16 0
金融界2025年8月15日消息,国家知识产权局信息显示,安徽格兰科新材料技术有限公司;中国科学院合肥物质科学研究院申请一项名为“多孔ZIF-8材料与石...
2025-08-16 0
在日常使用中,许多华为手机用户可能会遇到手机突然自动关机的问题,这不仅影响了使用体验,还可能带来不便。例如,用户在使用过程中,手机突然自动关闭,甚至无...
2025-08-16 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-16 0
近日,有网友在社交平台发布了一则《关于加班的通报表扬》,引发广泛关注。发帖人表示,这是朋友工作的电商公司发布的7月加班通报表扬红名单,名单上的员工因“...
2025-08-16 0
发表评论