实测智谱GLM-4.6V,国产多模态Agent底座模型中的最强者

2026-01-19 13:12:05来源: 网络作者:admin

本次发布包含2个版本:

GLM-4.6V:总参数量为1060亿,单次推理时激活参数约120亿,其视觉理解精度在同参数模型中处于最优水平,适用于云端及高性能应用场景;GLM-4.6V-Flash:总参数量为90亿,具备更轻量化、更快速的特点,适合进行本地部署。

GLM-4.6V 首次把 Function Call(工具调用)能力整合到视觉模型中,使大模型兼具“眼睛”与“双手”的功能,不仅能原生处理各类复杂视觉任务,还可基于对视觉信息的理解主动调用工具来完成后续相关操作。

比如,GLM-4.6V 可以直接“看懂”结构复杂、包含大量图表和示意图的论文,并重新整理成一篇人人都能看懂的图文并茂的文章;

仅凭一张截图,就能拆解页面结构,复刻出几乎一模一样的前端页面。

01. 实测表现

打开z.ai,在页面左上角选择模型GLM-4.6V。

官网:https://chat.z.ai

GitHub:https://github.com/zai-org/GLM-V

Hugging Face:https://huggingface.co/collections/zai-org/glm-46v

GLM-4.6V 可以调用图像识别、图像处理、图像搜索、购物搜索4种工具。

在输入框的下方,官方预先设置了一系列典型的功能示例,像万能识搜、图文扫描、文档智读、视频理解、智能比价以及数理解题等都包含在内。只要选择其中任意一个功能,GLM - 4.6V 就会自动调用与之相匹配的工具。

case1 万能识搜

提示词:这是哪里,几月适合去旅游?

GLM-4.6V 具备原生的视觉理解能力,直接调用识图工具识别图片中的内容,再搜索相关知识给出回复。

case2 图文扫描

提示词:提取图片中的信息,转为excel表格。

GLM-4.6V 对内容和布局的理解非常准确。

再尝试复杂一点的:

提示词:帮我扫描出来这款猫粮的原料、成分表和其他说明,并分析适合2岁小猫长期吃吗?

GLM-4.6V 也准确的识别出原料组成和产品成分,并且基于这些内容进行分析。

case3 文档智读

上周,中国科学技术大学潘建伟教授带领的团队于国际顶尖学术期刊《物理评论快报》(PRL)发表了最新研究成果,该成果在量子物理领域实现了突破性进展,为爱因斯坦与玻尔之间持续一个世纪的学术争论画上了句号。

我找到了论文原文,让 GLM-4.6V 帮我们分析分析。

这篇论文主要研究的是量子力学里的“量子非定域性”问题——简单说就是两个纠缠的量子粒子,不管离多远,一个状态变了另一个会立刻跟着变,就像“心灵感应”一样。 爱因斯坦和玻尔的世纪之辩,核心就是争这个:爱因斯坦觉得这肯定是因为粒子之间有我们没发现的“隐变量”(就像藏起来的信号),不然违反“光速最快”的相对论;玻尔却认为量子世界本来就是这样“诡异”,没有隐变量,粒子状态在测量前根本不确定。 这篇论文厉害在哪儿?它用“贝尔不等式”做实验验证——如果隐变量存在,实验结果会满足这个不等式;如果量子非定域性是真的,就会打破它。论文通过更严谨的实验(比如排除了粒子之间“偷偷传信号”的可能),明确证明贝尔不等式被打破了,也就是说:爱因斯坦错了,玻尔的量子非定域性才是对的。这就像给这场吵了几十年的辩论盖了个章,所以说它“终结”了世纪之辩。 除了学术上把量子力学的基础钉得更牢,对普通人来说也有实在影响:比如现在炒得火的量子通信(像量子保密通信),就是靠量子纠缠的“不可窃听”特性——只要有人窃听,量子状态就会变,接收方立刻能发现,这能让我们的信息更安全;未来的量子计算机,也得靠量子纠缠来实现超高速计算,到时候处理复杂问题(比如新药研发、天气预报)会比现在的电脑快成千上万倍,直接改变我们的生活。

GLM-4.6V 不仅能理解复杂的图表内容,还能把关键信息重新整理,用图文并茂的方式讲清楚。

case4 视频理解

提示词:这是白日梦想家的经典片段,它具体用到了哪些镜头语言,分镜设计有什么亮点?

GLM-4.6V 给出的解读非常专业,整个视频讲述了什么内容,用了哪些镜头,这些镜头语言表达了什么情绪…比我理解的深刻多了。

case5 数理解题

提示词:解答图中问题。

GLM-4.6V 可以结合视觉信息与外部知识进行组合推理,解题思路非常清晰。

case6 智能比价

提示词:请帮我搜索与图中赵露思耳环类似的平价同款。

GLM-4.6V 直接帮我找到了好几个同款平替,识别挺准确的,而且不同平台都有~

case7 图文内容创作

提示词:搜索一下视觉模型的发展过程,生成一个图文并茂的报告。

case 8 复刻前端网页

提示词:复刻截图中的网页,页面中涉及的所有图片素材必须直接使用真实图片和视频,不要用 placeholder 或占位元素。

视觉理解、结构推理与代码生成可一次性完成,生成的网页和原图几乎没差别,哪怕是截图里的浮窗结构都能准确识别并完整还原!导航栏的每个选项还都提前留好了跳转的位置。

02. 一些分享

实际体验后发现,GLM-4.6V 不仅具备识别画面细节的能力,还能将图像与自然语言的语义关联起来,理解画面所传达的内容以及信息间的内在联系,整个交互过程十分流畅。

使用过程中,建议一直开启深度思考功能,这样模型给出的回复质量会更优。在进行前端复刻操作时,建议关闭工具功能;而在其他场景下,可根据具体任务需求自定义设置,或者直接保留官方选项里的默认配置就可以了。

这个强大的视觉能力还会融入到智谱的 Coding Plan,每个月最低只需要20元,可以直接使用最新模型能力,日常用非常香。

随着这类能力逐步成熟,视觉信息将会深度参与决策、规划与行动本身,而现实世界的画面,都将成为系统可以直接理解和调用的一等信息源。

视觉模型能力的提升,不只是给 AI 一双眼睛一双手,而是在为下一代智能体参与现实世界打开通道。

未来的机器人不再需要被精确编程去执行某个动作,而是能够理解类似“去拿衣柜里最右侧的红色毛衣”这样的自然指令。

原文链接:GLM-4.6V发布即开源,国产最强多模态Agent底座模型

免责声明:文章图片应用自网络,如有侵权请联系删除

热门推荐

更多
最新 热门