导读当前全球AI治理正面临治理机制碎片化、技术能力南北差距扩大、话语权失衡、多元主体协同不足等结构性挑战。对此,中国提出以“善治”为价值导向的全球AI...
2025-08-08 0
大数据文摘出品
阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。
这并非简单地在图片上“加字”。
Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。
在这张由Qwen-Image生成的古代集市画面中,出现了多个阿里云门店的招牌,分别售卖云存储、算力、AI平台与模型服务。街景复杂,信息密集,所有的文字元素却丝毫不突兀。
在这张PPT中,阿里巴巴将“通义千问视觉基础模型”的名称镶嵌在一张科技蓝背景的幻灯片上,四周点缀抽象植物图案,文字清晰、工整、准确地匹配PPT结构。
02 结构重构,技术更迭
为了实现这种“写得准、嵌得牢”的文字图像融合,Qwen团队对模型结构进行了彻底革新。
Qwen-Image的架构由三大核心部分组成。
第一部分是Qwen2.5-VL,专注于图文理解。它识别图像中的物体与结构,同时理解文字内容与语义。
第二部分是一个变分自编码器(Variational AutoEncoder),用于压缩图像信息,提升效率。
第三部分是多模态扩散变换器(Multimodal Diffusion Transformer),负责生成最终输出。
但最关键的创新来自于一种全新的位置编码方法——MSRoPE。传统方法将文字当作一串字符,在图像中以横排或网格方式简单排布。
MSRoPE从图像中央出发,沿对角线方向布置文字位置编码。这种布局更贴合图像的自然结构,让模型能够在不同分辨率下依然精准定位每个文字元素。
结果就是:不论是幻灯片、街头广告、海报设计,甚至是漫画对话框中的对话,文字都不会跑偏、错位或重叠。
这项技术不仅提升了对中文复杂字符的渲染能力,还让模型在中英文切换中保持流畅。
生成文字图像的最大风险,在于训练数据的质量。整个训练集共分为四类:55%为自然图片、27%为设计类内容(如海报和PPT)、13%为人物照片,剩下5%为受控合成数据。
所有图像都必须通过多级筛选流程,亮度、饱和度、色彩熵、清晰度四项指标全面把关,极端异常的图像会被标记并复查。
在此基础上,Qwen-Image采用三种训练策略:纯渲染策略,即在简单背景上显示清晰文字;组合渲染策略,将文字置于真实场景中;复杂渲染策略,则处理多栏排版、手写风格、演示幻灯片等高难度格式。
这三种策略协同发力,覆盖从基础到高级的各种文本图像组合,构建出多层次、强鲁棒性的训练数据集。。
在一项包含一万多次匿名对比评估的测试中,Qwen-Image的表现优于GPT-Image-1与Flux.1 Context等商业模型。
整体排名第三,仅次于少数研究性模型。在图像生成、图像编辑、中英文文字渲染这三项指标上,Qwen-Image几乎全面领先。
图注:在与 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面测试中,Qwen-Image 在图像生成与编辑方面表现领先。该模型在中文文本渲染方面也位居第一,并在英文表现上与竞争对手持平。
在最关键的中文渲染测试中,它一骑绝尘,稳居第一。在业界认可的GenEval测试中,Qwen-Image在对象生成项目上得分高达0.91,远高于其他同类模型。
这说明,它不仅擅长生成“看起来好”的图像,更能处理结构复杂、任务精细的图文嵌合内容。
阿里巴巴也在同步推进一个名为Qwen VLo的模型,用于文字能力更强的图文任务。
Qwen-Image现已在GitHub与Hugging Face平台开放,可免费试用,亦提供在线演示。
Github:
https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file
demo:
https://huggingface.co/spaces/Qwen/Qwen-Image
paper:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
相关文章
导读当前全球AI治理正面临治理机制碎片化、技术能力南北差距扩大、话语权失衡、多元主体协同不足等结构性挑战。对此,中国提出以“善治”为价值导向的全球AI...
2025-08-08 0
文 | 清栀昨天,有人在瑞士的日内瓦偶遇了偶遇了武打巨星成龙大哥,已经七十一岁的他一身白衣,配上礼帽,时髦感直接拉满,令人意外的是,站在他旁边的年轻人...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,高唐县鑫腾精密机械有限公司取得一项名为“一种大理石加工用切割装置”的专利,授权公告号CN2231...
2025-08-08 0
【CNMO科技行情】作为一加2025年重磅推出的“电竞三芯”性能手机,一加Ace 5至尊版以直屏设计、超长续航和三芯协同性能,成为游戏玩家与全能用户的...
2025-08-08 0
乾隆晚年的紫禁城,许多大臣进进出出。最常被百姓咀嚼的却偏偏是两位,有点戏剧色彩的家伙——满洲的和珅、汉人的纪晓岚。站在宫门前望去,这对冤家几乎成了一道...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,广西北部湾大兆干细胞医学研究有限公司申请一项名为“一种CAR-NK细胞自动化制备与应用平台”的专...
2025-08-08 0
【来源:宣城发布】近日省商务厅公布了2024年度跨境电子商务及海外仓重点企业认定结果宣城市5家企业获评获评企业数量位居全省第三安徽威盛家具有限公司安徽...
2025-08-08 0
国产手机品牌近年来在技术研发、产品创新方面突飞猛进,在中高端市场与 iPhone Pro 系列形成了正面交锋,不断侵蚀苹果的市场份额。7月15日,ID...
2025-08-08 0
发表评论