2025年12月15日星期一

视觉能力全面SOTA!智谱GLM-4。6V系列开源, 视觉理解精度超Qwen3-VL, 开启多模态AI技术新篇章。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

GLM-4.6V: The Most Capable Open Source Multimodal Model Yet!

视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。

今天给大家介绍最新开源的多模态大型语言模型GLM-4.6V系列,包含两个版本:GLM-4.6V (106B),一个面向云端和高性能集群场景的基础模型;以及GLM-4.6V-Flash (9B),一个针对本地部署和低延迟应用优化的轻量级模型。

GLM-4.6V 在训练过程中将上下文窗口扩展到 128k 个 token,并在视觉理解和推理方面达到了同等参数规模模型中的最佳水平。首次集成了原生函数调用功能。这有效地弥合了"视觉感知"和"可执行动作"之间的鸿沟,为现实世界商业场景中的多模态智能体提供了统一的技术基础。

图片

unsetunset相关链接unsetunset

  • GLM-4.6V博客:https://z.ai/blog/glm-4.6v
  • 论文:https://huggingface.co/papers/2507.01006
  • GitHub 仓库:https://github.com/zai-org/GLM-V
  • 在线演示:https://chat.z.ai/
  • 桌面助手应用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App图片

unsetunsetGLM-4.6V介绍unsetunset

GLM-4.6V系列精心打造了两款各具特色的模型,以满足不同场景下的需求:

  • GLM-4.6V (106B):此版本专为云端及高性能集群环境设计,凭借其庞大的参数规模,在视觉理解与推理任务中展现出了SoTA(State-of-the-Art,即业界领先)的性能。无论是处理复杂的图像数据,还是执行深度推理任务,它均能以卓越的表现胜任,为高端AI应用提供强有力的支持。
  • GLM-4.6V-Flash (9B):作为轻量级代表,该模型针对本地部署及低延迟场景进行了深度优化。其紧凑的结构与高效的性能,使得在资源受限的环境下也能实现快速响应,为边缘计算、实时交互等应用提供了理想的解决方案。

unsetunset原生函数调用:构建感知-理解-执行的完整闭环unsetunset

GLM-4.6V系列的核心创新之一,在于其原生函数调用能力的集成。这一突破性设计,彻底改变了传统多模态大语言模型在处理复杂信息时的范式:

  • 多模态输入支持:模型能够直接接纳图像、截图、文档页面等多模态数据作为输入,无需经过繁琐的文本转换步骤。这一变革不仅避免了信息在转换过程中的损失,还显著简化了数据处理流程,提升了系统的整体效率。
  • 多模态输出融合:更为重要的是,GLM-4.6V系列能够直观解析工具返回的多模态结果,如搜索结果、统计图表、网页截图等,并将这些信息无缝融入后续的推理链与最终输出中。这一能力使得模型能够从感知层面直达执行层面,形成了一个高效、闭环的智能处理系统。
  • 广泛的应用场景:赋能多行业智能化升级

GLM-4.6V系列的强大功能,为其在多个领域的广泛应用奠定了坚实基础:

  • 复杂文档解析:面对包含文本、图表、图形、表格及公式等多元信息的复杂文档,GLM-4.6V系列能够精准捕捉并理解其中的关键内容,为知识管理、决策支持等场景提供高效、准确的智能服务。
  • 视觉工具调用与内容创作:在内容生成过程中,模型可自主调用视觉工具,裁剪关键视觉元素,进行"视觉审计",并评估候选图像的相关性与质量。最终,它能够精心编排所有相关文本与视觉内容,生成结构清晰、图文并茂的高质量文章,适用于社交媒体发布、知识库建设等多种场景。
  • 富文本内容创作与视觉搜索:GLM-4.6V系列还支持接受多种类型的多模态输入,并自动生成结构化、高质量的图文交错内容。同时,其强大的视觉理解能力也极大提升了视觉网页搜索的效率与精准度,为用户提供了更为便捷、高效的信息检索体验。

unsetunset安装教程unsetunset

SGLang:

pip install sglang>=0.5.6.post1
pip install nvidia-cudnn-cu12==9.16.0.29
sudo apt update
sudo apt install ffmpeg

vLLM

pip install vllm>=0.12.0
pip install transformers>=5.0.0rc0

Transformer

from transformers import AutoProcessor, Glm4vForConditionalGeneration
import torch

MODEL_PATH = "zai-org/GLM-4.6V-Flash"
messages = [
    {
        "role""user",
        "content": [
            {
                "type""image",
                "url""https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"
            },
            {
                "type""text",
                "text""describe this image"
            }
        ],
    }
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)
inputs.pop("token_type_ids", None)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)
print(output_text)

unsetunset模型局限性unsetunset

  • 纯文本问答功能仍有很大的提升空间。在本开发周期中,我们的主要重点是视觉多模态场景,我们将在后续更新中增强纯文本功能。
  • 该模型在某些情况下可能仍然会过度思考甚至重复自身,尤其是在处理复杂提示时。
  • 在某些情况下,模型可能会在最后再次重复答案。
  • 在某些感知方面仍然存在局限性,例如计数准确性和识别特定个体,这些方面仍需改进。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

建议收藏!全网最强 AI 资源包:GPT-5。2、Claude 4。5、科研绘图神器,通通国内直连!

🚀 建议收藏!全网最强 AI 资源包:GPT-5.2、Claude 4.5、科研绘图神器,通通国内直连! 🚀 建议收藏!全网最强 AI 资源包:GPT-5.2、Claude 4.5、科研绘图神器,通通国内直连! 在这个 AI 迭代以"小时"计的时代,掌...