突破AI偏见：理想汽车发布首个亚洲人脸大规模视频数据集

热门资讯 2025年07月18日 03:31 1 admin

理想汽车基座模型团队与高校合作推出的DH-FaceVid-1K数据集，正在改写人工智能人脸生成领域的游戏规则。这一全球首个以亚洲人脸为主的超大规模高质量人脸视频数据集，包含1200小时视频内容和27万个视频片段，其中亚洲面孔占比高达83%。该研究成果已被国际计算机视觉大会ICCV 2025录用，标志着AI技术在消除种族偏见方面迈出了重要一步。

技术偏见的根源

长期以来，主流AI人脸生成系统存在着明显的种族偏见问题。当用户使用开源AI生成人像视频时，欧美面孔往往栩栩如生，而亚洲面孔却总是显得不够自然，出现五官比例失调、表情僵硬等问题。这种现象的根本原因在于训练数据的严重失衡。

现有主流开源人脸数据集面临三大瓶颈：规模有限、质量与数量失衡，以及亚洲人脸数据严重不足。以目前广泛使用的数据集为例，CelebV-HQ总时长仅68小时，分辨率为512×512；VoxCeleb2虽然有2442小时的内容，但分辨率仅为224p；CelebV-Text中亚洲人占比不足30%。

公开数据集中的多种噪音

这种数据失衡带来的后果是显而易见的。当AI模型用90%的欧美面孔和10%的亚洲面孔训练时，它对亚洲面孔的理解自然存在缺陷。更重要的是，这些公开数据集还普遍存在随机出现的人手、文字覆盖、多人脸混杂等噪声问题，进一步影响了生成质量。

创新的数据处理架构

DH-FaceVid-1K的突破性贡献不仅在于规模，更在于其创新的三阶段数据处理流程。研究团队摒弃了传统的网络爬取和演员录制方式，从合规数据众包平台收集了2000多小时的1080p原始视频，主要包括单人采访节目和Vlog内容。

表1：主流数据集与 DH-FaceVid-1K 信息对比

第一阶段的高质数据采集与安全初筛中，团队进行了人脸区域检测裁剪，强制年龄过滤，确保人脸区域达到256×256像素以上的清晰度。第二阶段的多维度噪声过滤与质量增强包括OCR字幕检测、黑边识别、多脸剔除等自动化过滤，并由百人团队历时半年进行交叉审核。第三阶段的多模态标注与音频对齐则采用DWPose提取面部关键点，PLLaVA自动生成属性标签，基于重训的SyncNet模型计算唇语同步分数。

图1 主流数据集与 DH-FaceVid-1K 的视频分辨率及时长对比

这种"机器跑量、人工把关"的人机协同模式，既打破了传统手工作业的效率瓶颈，又通过人工监督避免了全自动流程带来的数据失真。研究团队建立了系统化、可量化的质量标尺，通过人脸尺寸、唇语同步分数等硬性指标进行自动化过滤，形成了标准统一、可复现的质量评估框架。

性能提升的量化验证

DH-FaceVid-1K数据集在多个关键指标上实现了显著提升。在FID（衡量生成图像与真实图像相似度）方面提升了15-20%，在FVD（视频质量评估）方面提升了20-30%，在CLIPScore（指令理解准确度）方面提升了10-15%。这些数据表明，使用新数据集训练的模型在生成亚洲人脸时更加真实细腻，动作更加自然流畅，对用户指令的理解也更加准确。