实测智谱GLM-4.6V，国产多模态Agent底座模型中的最强者

2026-01-19 13:12:05来源：网络作者：admin

本次发布包含2个版本：

GLM-4.6V：总参数量为1060亿，单次推理时激活参数约120亿，其视觉理解精度在同参数模型中处于最优水平，适用于云端及高性能应用场景；GLM-4.6V-Flash：总参数量为90亿，具备更轻量化、更快速的特点，适合进行本地部署。

GLM-4.6V 首次把 Function Call（工具调用）能力整合到视觉模型中，使大模型兼具“眼睛”与“双手”的功能，不仅能原生处理各类复杂视觉任务，还可基于对视觉信息的理解主动调用工具来完成后续相关操作。

比如，GLM-4.6V 可以直接“看懂”结构复杂、包含大量图表和示意图的论文，并重新整理成一篇人人都能看懂的图文并茂的文章；

仅凭一张截图，就能拆解页面结构，复刻出几乎一模一样的前端页面。

01. 实测表现

打开z.ai，在页面左上角选择模型GLM-4.6V。

官网：https://chat.z.ai

GitHub：https://github.com/zai-org/GLM-V

Hugging Face：https://huggingface.co/collections/zai-org/glm-46v

GLM-4.6V 可以调用图像识别、图像处理、图像搜索、购物搜索4种工具。

在输入框的下方，官方预先设置了一系列典型的功能示例，像万能识搜、图文扫描、文档智读、视频理解、智能比价以及数理解题等都包含在内。只要选择其中任意一个功能，GLM - 4.6V 就会自动调用与之相匹配的工具。

case1 万能识搜

提示词：这是哪里，几月适合去旅游？

GLM-4.6V 具备原生的视觉理解能力，直接调用识图工具识别图片中的内容，再搜索相关知识给出回复。

case2 图文扫描

提示词：提取图片中的信息，转为excel表格。

GLM-4.6V 对内容和布局的理解非常准确。

再尝试复杂一点的：

提示词：帮我扫描出来这款猫粮的原料、成分表和其他说明，并分析适合2岁小猫长期吃吗？

GLM-4.6V 也准确的识别出原料组成和产品成分，并且基于这些内容进行分析。

case3 文档智读

上周，中国科学技术大学潘建伟教授带领的团队于国际顶尖学术期刊《物理评论快报》（PRL）发表了最新研究成果，该成果在量子物理领域实现了突破性进展，为爱因斯坦与玻尔之间持续一个世纪的学术争论画上了句号。

我找到了论文原文，让 GLM-4.6V 帮我们分析分析。

这篇论文主要研究的是量子力学里的“量子非定域性”问题——简单说就是两个纠缠的量子粒子，不管离多远，一个状态变了另一个会立刻跟着变，就像“心灵感应”一样。爱因斯坦和玻尔的世纪之辩，核心就是争这个：爱因斯坦觉得这肯定是因为粒子之间有我们没发现的“隐变量”（就像藏起来的信号），不然违反“光速最快”的相对论；玻尔却认为量子世界本来就是这样“诡异”，没有隐变量，粒子状态在测量前根本不确定。这篇论文厉害在哪儿？它用“贝尔不等式”做实验验证——如果隐变量存在，实验结果会满足这个不等式；如果量子非定域性是真的，就会打破它。论文通过更严谨的实验（比如排除了粒子之间“偷偷传信号”的可能），明确证明贝尔不等式被打破了，也就是说：爱因斯坦错了，玻尔的量子非定域性才是对的。这就像给这场吵了几十年的辩论盖了个章，所以说它“终结”了世纪之辩。除了学术上把量子力学的基础钉得更牢，对普通人来说也有实在影响：比如现在炒得火的量子通信（像量子保密通信），就是靠量子纠缠的“不可窃听”特性——只要有人窃听，量子状态就会变，接收方立刻能发现，这能让我们的信息更安全；未来的量子计算机，也得靠量子纠缠来实现超高速计算，到时候处理复杂问题（比如新药研发、天气预报）会比现在的电脑快成千上万倍，直接改变我们的生活。

GLM-4.6V 不仅能理解复杂的图表内容，还能把关键信息重新整理，用图文并茂的方式讲清楚。