首页 抖音热门文章正文

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

抖音热门 2025年08月08日 15:42 1 admin

大数据文摘出品

阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。

这并非简单地在图片上“加字”。

Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

在这张由Qwen-Image生成的古代集市画面中,出现了多个阿里云门店的招牌,分别售卖云存储、算力、AI平台与模型服务。街景复杂,信息密集,所有的文字元素却丝毫不突兀。

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

在这张PPT中,阿里巴巴将“通义千问视觉基础模型”的名称镶嵌在一张科技蓝背景的幻灯片上,四周点缀抽象植物图案,文字清晰、工整、准确地匹配PPT结构。

02 结构重构,技术更迭

为了实现这种“写得准、嵌得牢”的文字图像融合,Qwen团队对模型结构进行了彻底革新。

Qwen-Image的架构由三大核心部分组成。

第一部分是Qwen2.5-VL,专注于图文理解。它识别图像中的物体与结构,同时理解文字内容与语义。

第二部分是一个变分自编码器(Variational AutoEncoder),用于压缩图像信息,提升效率。

第三部分是多模态扩散变换器(Multimodal Diffusion Transformer),负责生成最终输出。

但最关键的创新来自于一种全新的位置编码方法——MSRoPE。传统方法将文字当作一串字符,在图像中以横排或网格方式简单排布。

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

MSRoPE从图像中央出发,沿对角线方向布置文字位置编码。这种布局更贴合图像的自然结构,让模型能够在不同分辨率下依然精准定位每个文字元素。

结果就是:不论是幻灯片、街头广告、海报设计,甚至是漫画对话框中的对话,文字都不会跑偏、错位或重叠

这项技术不仅提升了对中文复杂字符的渲染能力,还让模型在中英文切换中保持流畅。

03 不靠AI图训练,照样超越对手

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

生成文字图像的最大风险,在于训练数据的质量。整个训练集共分为四类:55%为自然图片、27%为设计类内容(如海报和PPT)、13%为人物照片,剩下5%为受控合成数据。

所有图像都必须通过多级筛选流程,亮度、饱和度、色彩熵、清晰度四项指标全面把关,极端异常的图像会被标记并复查。

在此基础上,Qwen-Image采用三种训练策略:纯渲染策略,即在简单背景上显示清晰文字;组合渲染策略,将文字置于真实场景中;复杂渲染策略,则处理多栏排版、手写风格、演示幻灯片等高难度格式。

这三种策略协同发力,覆盖从基础到高级的各种文本图像组合,构建出多层次、强鲁棒性的训练数据集。。

在一项包含一万多次匿名对比评估的测试中,Qwen-Image的表现优于GPT-Image-1与Flux.1 Context等商业模型

整体排名第三,仅次于少数研究性模型。在图像生成、图像编辑、中英文文字渲染这三项指标上,Qwen-Image几乎全面领先。

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

图注:在与 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面测试中,Qwen-Image 在图像生成与编辑方面表现领先。该模型在中文文本渲染方面也位居第一,并在英文表现上与竞争对手持平。

在最关键的中文渲染测试中,它一骑绝尘,稳居第一。在业界认可的GenEval测试中,Qwen-Image在对象生成项目上得分高达0.91,远高于其他同类模型。

这说明,它不仅擅长生成“看起来好”的图像,更能处理结构复杂、任务精细的图文嵌合内容

阿里巴巴也在同步推进一个名为Qwen VLo的模型,用于文字能力更强的图文任务。

Qwen-Image现已在GitHub与Hugging Face平台开放,可免费试用,亦提供在线演示

Github:

https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file

demo:

https://huggingface.co/spaces/Qwen/Qwen-Image

paper:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

让文字真正“写进”图像:阿里巴巴发布Qwen-Image让文字真正“写进”图像:阿里巴巴发布Qwen-Image

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动