【开云发布】-智谱×华为：开源首个国产芯片训练的多模态SOTA模型！实测：ChatGPT解决不了的中文问题终于解决了

2026 15:24:34.01 15:24:34.14 15:24:34

编纂 | 听雨

出品 | 51CTO技能栈（微旌旗灯号：blog51cto）

刚上市一礼拜，智谱就快马加鞭地发布新模子了！

就于方才，智谱结合华为开源最新图象天生模子GLM-Image，这是首个于国产芯片上完玉成程练习的SOTA多模态模子。模子基在昇腾Atlas 800T A2装备及昇思MindSpore AI框架完成从数据到练习的全流程。

官方给出的实测样例也相称冷艳，有内容详尽的科普插画及道理示用意：

有合适电商首页以和漫画风的多格丹青：

也有合适社交媒体封面、排版较为繁杂的图片：

还有有各式各样的写实摄影风：

看起来各类图片气势派头及天生使命，GLM-Image都能驾御。

于线体验地址也已经经放出：https://bigmodel.cn/trialcenter/modeltrial/image

开源SOTA：主打繁杂文本天生能力

从实测样例可以看出，智谱这波主打的是长文本以和繁杂视觉文字的天生使命。

于文字衬着的权势巨子榜单上，GLM-Image 交出了一份相称亮眼的成就单。不仅逾越 Qwen-Image、Z-Image到达开源SOTA程度，部门指标甚至逾越了Nano Banana Pro。

图片

于CVTG-2K（繁杂视觉文字天生）榜单中，该评测重点考查模子是否可以或许于统一张图象中，正确天生多处、多个区域的文字内容。成果显示，GLM-Image 于多区域文字天生正确率上体现凸起，Word Accuracy 到达 0.9116，位列开源模子第一。

同时，于权衡字符级差异的NED（归一化编纂间隔）指标上，GLM-Image 以0.9557 的成就继承领跑，象征着其天生文字与方针文本高度一致，错字、漏字等问题显著更少。

而于更倾向“真实运用场景”的LongText-Bench（长文本衬着）榜单中，GLM-Image 的体现也相称凸起。该榜单重要考查模子于长文本、多行文字场景下的衬着能力，笼罩招牌、海报、PPT、对于话框等8 类文字密集场景，并同时设置中英文双语测试。

终极成果显示，GLM-Image 于英文使命中取患上0.952，中文使命中到达0.979，双语成就均位列开源模子第一。

GLM-Image 是怎么炼成的？「自回归+扩散解码器」混淆架构

GLM-Image 能取患上这么冷艳的繁杂视觉文字天生效果，离不开其暗地里的架构立异。

据官方先容，GLM-Image 引入了「自回归+扩散解码器」混淆架构，将9B巨细的自回归模子与7B巨细的DiT扩散解码器交融于一路。

这详细是于干甚么呢？简朴来讲，如今扩散模子因其练习不变性及强盛的泛化能力，已经成为图象天生的主流。但其局限性也一样较着：对于繁杂指令不敷“听话”，对于常识型内容理解不深，文本、符号、布局性信息轻易掉真等等。

在是智谱做了一个很是“工程导向”的选择：把“理解”及“画细节”这两件事拆开，各自交给最擅长的模子来做。

自回归模子卖力“想清晰画甚么”，而扩散解码器卖力“把画画好”。

详细来看：

自回归模块（AR）

a.基在GLM-4-9B

b.卖力天生带有低频语义信息的视觉 token

c.决议总体结构、布局、文本内容、语义瓜葛

Image

扩散解码器（Diffusion Decoder）

a.基在CogView4 的单流 DiT 架构

b.卖力补全高频细节

c.天生清楚纹理、真本色感、邃密文字及边沿

Image

值患上留意的是，其解码器分外引入了一个轻量级模块——Glyph-byT5。

它会对于文字区域举行字符级建模，把字形 embedding 直接送进扩散解码器，从而晋升了繁杂文本（特别是中文）的衬着能力，这也是它于文本天生榜单上体现凸起的要害缘故原由之一。

于自回归图象天生中，“用甚么 token 暗示图象”很是要害。过往方案年夜致有三类：

VQVAE 的视觉码：信息完备，但语义弱语义 VQ（semantic-VQ）：语义更强，布局更清楚一维语义向量（如 DALL·E 2）：语义抽象，但细节不足

GLM-Image 的结论很明确：

语义 VQ 于“可建模性”及“语义一致性”之间，到达了最佳的均衡。

试验也验证了这一点：于不异码本范围下，语义 VQ 的练习丧失显著更低，模子更易收敛。

是以，GLM-Image 选择采用语义VQ，并基在XOmni tokenizer，让自回归模子“真正学会理解图象语义”。

而于自回归预练习部门，GLM-Image 的 AR 部门直接初始化自GLM-4-9B-0414，但做了几项要害革新：

冻结原有文本 embedding，防止粉碎语言能力新增视觉 token embedding用视觉 LM head 替代原有文本 LM head利用MRoPE撑持图文交错输入（图象 + 文本混淆天生）

同时，智谱采用了多分辩率、渐进式练习的计谋，包括 256 像素、512 像素以和一个从 512 像素到 1024 像素的混淆分辩率练习阶段，以便晋升可控性及总体不变性。

与华为互助，基在国产全栈算力底座举行练习

官方吐露，其自回归布局的整个练习基座，从最初期的数据预处置惩罚，到终极的年夜范围预练习，全数运行于昇腾 Atlas 800T A2 装备之上。

缭绕昇腾 NPU 与昇思 MindSpore AI 框架，智谱对于练习体系举行了深度定制，自研了一整套模子练习套件，对于数据预处置惩罚、预练习、SFT 以和 RL 等要害环节举行了端到端优化。于履行层面，模子充实使用了动态图多级流水下发、高机能交融算子以和多流并行等特征，将原本轻易成为瓶颈的流程拆解并重组。

图片

详细来看，经由过程动态图的多级流水优化，Host 侧算子下发中的要害阶段被流水化并高度堆叠，有用消弭了算子下发带来的机能瓶颈；借助多流并行计谋，通讯与计较实现互相遮蔽，文本梯度同步、图象特性播送等高频操作再也不“洽商”，显著降低了通讯开消。于算子层面，练习历程中年夜量采用了AdamW EMA、COC、RMS Norm等昇腾亲及的高机能交融算子，于晋升吞吐效率的同时，也进一步加强了总体练习的不变性。

这套软硬件深度协同的练习系统，为 GLM-Image 的范围化练习及繁杂能力打下了扎实的工程基础，使其成为首个于国产芯片上完玉成流程练习的SOTA多模态模子，也验证了于国产全栈算力底座上练习高机能多模态天生模子的可行性。官方暗示，但愿能为社区挖掘国产算力潜力提供有价值的参考。

实测体验：中文内容很正确，解决了ChatGPT没解决的问题

既然官方吹患上这么喷鼻，咱们也火烧眉毛地实测了一波。

先来天生一页先容《小王子》的儿童绘本插画，提醒词以下：

天生一个儿童插画绘本，表现小王子及小狐狸的友爱互动，如下两位的对于白：

小王子：“你是谁？你很美丽。”

狐狸：“我是只狐狸。”

小王子：“来及我一路玩吧。我很忧?。”

狐狸：“我不克不及及你一路玩。我还有没有被驯服呢。”

……

狐狸：“这是已经经早就被人遗忘了的工作。驯服，就是成立接洽。”

年夜概花了2-3分钟时间，GLM-Image就给出告终果：

图片

不能不说，天生效果还有是挺不错的。GLM-Image 正确遵照了指令，插画气势派头同一、色采柔及，没有呈现细节恍惚或者画面杂乱的问题。最年夜的看点是中文内容很正确，没有呈现错字、漏字或者天生火星文的征象——这也是ChatGPT一直没解决的问题。

接下来再挑战一下文本更长的使命，天生一张先容新闻内容的图片，提醒词以下：

2026年1月12日，苹果与google公布告竣多年互助和谈，苹果将基在google的Gemini模子及云技能开发下一代基础模子，用在进级Siri和苹果智能功效。两边未公然详细财政条目，但动静称苹果每一年或者付出约10亿美元授权费。动静宣布后，google母公司Alphabet股价当日上涨1.09%，市值冲破4万亿美元，成为继英伟达、微软、苹果后第四家到达此市值的公司。

帮我天生一张图片，先容该新闻内容。

图片

可以看到GLM-Image 的文字衬着能力还有是比力不变靠得住的，内容正确无误，与画面气势派头天然交融，没有呈现错字、变形或者排版杂乱的环境。美中不足的是天生速率轻微有点慢，年夜概花了五六分钟的时间。

固然，此次新模子发布最年夜的看点，不单单是天生几张精致的图片，而是其完备练习链路初次成立于华为国产全栈算力底座之上，而且一举拿下了开源多模态SOTA的成就。

这象征着国产算力再也不只是“可用”的替换方案，而是真正进入了可范围练习、可连续迭代、并能支撑前沿模子能力演进的阶段。GLM-Image对于在挖掘国产算力潜力提供了颇有价值的参考，于这里小编不能不为国产芯片点个赞！

今朝GLM-Image 已经于智谱开放平台上线试用，后续也将陆续接入Z.ai与智谱清言。

对于在开发者而言，GLM-Image 已经同步开放API 接入，可经由过程智谱开放平台文档快速完成集成。

开放平台：https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

此外，智谱也开源了技能陈诉，感兴致的伴侣们可以去扒一下技能细节！

技能陈诉：https://z.ai/blog/glm-image

本文转载自51CTO技能栈，作者：听雨

返回列表