首页 抖音推荐文章正文

清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪

抖音推荐 2025年08月29日 14:50 1 admin

“大模型人工智能走到哪里,高质量数据集就走到哪里,反过来,高质量数据集走到哪里,人工智能就走到哪里。”

随着人工智能技术的飞速发展,数据标注产业正站在新的历史节点上,面临着前所未有的机遇与挑战。8月28日,在2025中国国际大数据产业博览会“高质量数据集”主题交流活动上,清华大学数字政府与治理研究院院长张小劲教授深入探讨了数据标注产业的发展现状、面临的挑战以及未来的发展方向。

清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪

清华大学数字政府与治理研究院院长、教授张小劲

张小劲指出,数据标注产业发展已经进入一个新节点,这一阶段可被称为新的战略阶段。在这个阶段,行业正逐步完善,数据标注企业不断发展,各自承担着不同的功能与职责,整个行业逐渐走向成熟。这不仅标志着数智化时代的到来,还催生了新的职业和职业技能标准。

传统人工标注竞争激烈且内卷,未来大模型将带动标注

根据张小劲团队研究,从用工需求来看,数据标注行业处于引领发展的位置。然而,通过年份和地域数据分析可见,最初用工需求集中在人工成本较低的地区。但随着优质数据集的出现,用工需求逐渐向经济发达地区和人工智能前沿领域转移。在部分人力资本丰富的地区,如河南、四川,也出现了活跃的发展态势,这反映了地域分布的总体趋势。

在行业分布方面,目前数据标注行业主要集中在信息技术和科学研究相关行业。其中,人工智能先导研究行业的用工需求更为旺盛,对标注的重视程度也更高,而一般化企业则较少涉足。未来,数据标注可能会从特定行业企业中发展出专业化企业,以更好地完成数据标注工作。

“在数智化时代,企业是否是平台型的,行业是否是生态型的,这与数据发展和人工智能发展的根本特点密切相关。”他说道。

数据标注领域不断发展,传统的人工标注模式正面临根本变革。可以看到,传统人工标注市场竞争激烈且内卷化,用工需求规模大,同时用工流动性也较大。他认为未来大模型将带动标注工作,尤其是海量数据的标注,智能检测和工具优化将成为下一阶段长远的发展方向。

张小劲特别指出,未来合成数据领域的发展尤为值得关注。真实世界的数据有限,标注过程辛苦且成本高昂;而通过新型人工智能的数据搭接,合成数据领域将逐渐适应发展需求。

从事数据标注的企业都有哪些分类?经过深度调查和数据分析,张小劲发现可以用2×2矩阵来划分数据标注企业,从场景强度和基础强度两个维度来看,会呈现出双强、双弱、偏强、偏弱四种趋势。

他指出,在技术场景方面,具身机器人行业相对来说发展较好,技术具有引领性,创新势力在行业深耕仍有发展空间。大型产业和企业拥有更多专业力量开发模型并进行数据标注。国外的场景团队则更多地专注于垂直场景的数据采集和标注。一些外包团队和众包团队提供了灵活的劳动力,成本较低,但波动较大。他特别提到,众包团队在创新方面具有一定优势,尤其是在小众场景领域,可能会带来一些有意思的发现。

高质量数据集走到哪里,人工智能就走到哪里

论坛现场,来自银河通用的机器人在台上作具身高质量数据集合成数据集的开源发布。它张口第一句就是:“人工智能 + 行动到哪里,高质量数据集就走到哪里。”

清华大学张小劲谈数据标注:高质量数据集走到哪,AI就到哪

“今天会上听到一个金句:大模型人工智能走到哪里,高质量数据集就走到哪里。反过来,高质量数据集走到哪里,人工智能就走到哪里,它是相辅相成的,是双轮驱动的格局。”紧接着发言的张小劲“call back”机器人的发言。

在数据标注产业发展的新阶段,张小劲提出了五项产业发展对策建议,以推动行业的高质量发展。首先,要大力推进 AI 辅助标注与全自动化标注技术的演进,使数据标注从劳动密集型向知识密集型转变。这依赖于模型的持续发展,以提升标注效率和质量,实现人工智能与高质量数据集的双轮驱动。

其次,建立多轮质检与反馈机制,完善质控体制,精准识别和淘汰劣质数据,确保大模型的数据采集质量,从而保障大模型的健康发展。第三,开发行业针对性标注系统,利用中国丰富的应用场景和数据资源,满足差异化的数据需求,推动垂直细分领域的发展。

第四,深化校企合作,加速技术转化,推动行业标准制定,通过高校和企业的优势互补,加快技术从实验室到市场的转化速度。最后,强化技能培训,优化人力配置,建立质量追踪机制,提升从业人员的专业技能,保障标注工作的高质量完成,为行业发展提供坚实的人力资源支持。

采写:南都N视频记者 黄莉玲 李玲 发自贵阳

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动