首页 百科大全文章正文

数博对话|北京交通大学教授张向宏:高质量数据集是决定大模型质量的关键因素

百科大全 2025年08月19日 18:39 1 admin

来源:数博会执委会

数博对话|北京交通大学教授张向宏:高质量数据集是决定大模型质量的关键因素

2025中国国际大数据产业博览会(以下简称数博会)将于8月28日在贵州贵阳启幕。本届数博会以“数聚产业动能 智启发展新篇”为主题,旨在推动数据资源的高效汇聚和开发利用,为产业转型升级和经济高质量发展注入强劲动力。北京交通大学信息管理理论与技术国际研究中心教授张向宏作为数据领域的深耕者和数博会的长期参与者,近日接受对话专访,围绕数字化转型成效、数据要素市场化破局、基础设施挑战与机遇、数博会平台价值及未来发展等核心议题,分享了他的深刻洞察与前瞻建议。

问:从您的研究视角看,目前哪些场景的数字化转型已初见成效?还有哪些领域的数据价值尚未被充分挖掘?

张向宏:国家数据局成立以来,通过实施“数据要素×”行动计划、国家数据要素综合示范区、国家数字经济创新发展试验区、公共数据“跑起来”、国家数据基础设施建设、国家数据标注基地建设、城市全域数字化转型、数据产业集聚区、高质量数据集建设、可信数据空间建设等一系列试点示范工程,逐步探索出了一条行之有效的数据资源“供得出、流的动、用的好、保安全”路径,有效促进了各行各业的数据资源开发利用和数字化转型。总体来看,各领域数字化转型可以分为四个梯队:

第一梯队是互联网、金融、商贸流通等行业,数字化转型深度和广度不断拓展,面向数据的生产经营、管理决策、供应链管理、客户管理等垂直大模型、智能体等数据系统应用越来越广泛,正在快速替代面向流程和业务的信息化系统。

第二梯队是气象、时空、医疗、交通等行业,数据采集汇聚规模大、质量高,数据在本行业和跨领域的应用越来越普遍,人工智能垂直大模型和智能体等应用不断增多。

第三梯队是政务服务、社会管理、高端制造业等领域,大多数处于信息系统建设运营阶段,数据资源采集汇聚不断增强,但数据资源加工处理仍然滞后,数据应用还处于初级阶段。

第四梯队是中小企业、农业等领域,大多数还处于信息化初级阶段,信息系统还没有建设应用,数据资源还未得到充分重视,数据还没有得到应用。

问:数据要素市场化是当前的热点,您认为不同行业在数据确权、定价、交易等环节存在哪些共性难题?结合您的研究,有哪些针对性的解决思路?

张向宏:数据是一种新型生产要素,具有与土地、劳动力、技术、资本等传统生产要素迵然不同的新特点,如数据的多环节性和低成本易复制性特点,决定了数据要素很难确权或者确权成本很高;数据的阿罗信息悖论效应特征,决定了数据很难实现场内规模交易;数据价值不确定性特征,决定了数据价值易变、很难定价。

面向人工智能的行业高质量数据集构建是解决数据要素化价值化的一条可行路径。从数据要素化的具体实践来看,数据要素化价值化绝不能陷入传统要素的惯性路线中,或者说,简单地将传统要素的做法移植到数据要素中,是行不通的。当前,一方面是人工智能应用普及对数据资源需求日益迫切,另一方面是国家层面对数据资源开发利用制度供给不断加大,两端相向而行,已形成一条清晰的面向人工智能的数据产业链条。

数据产业链条的下游是垂域大模型在千行百业的应用;中下游是在基础大模型上加上大规模的行业高质量数据集,训练和调优而成的各种垂域大模型;中上游是在各行业采集汇聚的海量数据资源基础上,加工生产出的规模化、标准化、体系化高质量数据集;上游是各行各业的数据资源供给。而这条“数据资源—高质量数据集—垂域大模型—千行百业应用”数据产业链,都需要在数据基础设施中实现。

问:随着各行业数据量爆发式增长,数据存储、算力支撑、算法优化等基础设施层面面临哪些新挑战?您觉得技术突破的关键方向在哪里?

张向宏:算力和模型对人工智能应用的制约已大大缓解。算力、算法和数据是人工智能的三个关键要素,长期以来,高耗算力、模型闭源和数据短缺一直制约着人工智能大模型的应用普及。以DeepSeek为代表的人工智能企业,实现了MOE等关键技术重大突破,并采取了模型开源策略,实现了“算力平权”和“算法平权”,突破了人工智能三要素中的两大要素制约,促进人工智能大模型向通信、互联网、汽车、能源、金融、医疗、科技等各行各业加速渗透,显著降低了成本,提高了效率,并优化了用户体验,人工智能大模型广泛应用的时代已经到来。

高质量数据集是成为决定大模型质量的关键因素。DeepSeek实现“算力平权”和“算法平权”后,“数据平权”已成为人工智能大模型发展的最后一个堡垒,高质量数据集的供给规模和质量已成为决定人工智能大模型在各行业领域渗透速度和应用水平的最关键因素。在同等计算资源下,决定生成模型的因素中,高质量数据集的规模大小远比算法模型规模大小更加重要。而在使用医学数据训练大模型过程中,即使医疗数据集中含有0.001%的错误信息,也可能导致模型输出不准确的医学答案。

垂域大模型正广泛应用于企业的生产、管理、经营,企业的核心竞争力取决于其垂域大模型的“聪明”程度和“熟练”程度等大模型能力。垂域大模型的训练和推理高度依赖高质量数据集的供给。高质量数据集的规模和质量直接影响人工智能大模型的“智商”水平,高质量数据集已成为企业的核心竞争力和真正的“护城河”。

私域数据安全流通成为制约高质量数据集建设的关键瓶颈。全球数据资源中20%是公域数据,也称作可流通数据,80%是私域数据,或称不可流通数据。在20%的公域数据中,只有4%的数据是能在互联网上流通的格式化数据,其他16%的多模态数据不能在互联网上直接流通。当前,人工智能大模型对数据的消耗量越来越大,预计2028年互联网上流通的数据将全部耗尽。

在互联网上可流通数据将全部耗尽的背景下,人工智能大模型的聪明程度、智商水平和应用普及程度,将越来越多地取决于多模态数据和私域数据的安全高效流通程度,特别是私域数据的安全流通已成为世界各国必须解决的一个普遍性问题。这就需要从思想观念和管理体制机制方面,从传统数据静态安全转变到数据动态安全上来。建设一个既能促进私域数据大规模、高效流通,又能确保流通过程中安全的数据流通利用基础设施,成为私域数据安全高效流通的基础和前提。

问:数博会作为数据领域的重要平台,您有什么样的参会经历或印象?您认为它在推动数据技术创新、促进产学研合作方面,起到了哪些关键作用?

张向宏:数博会是全球首个以大数据为主题的博览会,也是我国数据领域的两大国家级平台之一,得到了党中央、国务院的高度肯定和支持,倾注了国家数据局和贵州省、贵阳市的大量心血,吸引了全国乃至世界各地数据领域政府、企业、大学、科研机构等参与,不仅已成为数据成果展示、技术交流、应用合作的一个全球性平台,更是推动产学研深度融合、促进数字经济高质量发展的重要引擎。在推动数据技术创新和产学研合作方面发挥了重要作用,主要体现在以下几个方面:

一是引领行业技术方向,促进前沿技术应用。数博会聚焦大数据、人工智能、云计算等前沿技术,为职业教育和技术研发提供了清晰的行业风向标。

二是搭建校企合作平台,深化产教融合。数博会聚集了华为、腾讯、蚂蚁等科技企业,为高校和企业搭建合作平台,促进订单班、实训基地共建等深度合作。2025数博会还通过“数字人才培养”活动,汇聚政府、高校、企业、研究机构等多方力量,探讨产学研用协同育人模式。

三是促进跨区域、跨领域协同创新。数博会连接了全国甚至世界各地在数据领域的合作。如深圳市大数据研究院与香港中文大学(深圳)合作,在贵阳大数据科创城开展人工智能研究,赋能区域数字化转型。

问:您认为未来数博会在聚焦数据领域的深度、推动产业落地等方面,还有哪些可以优化或加强的地方?

张向宏:未来的数博会,应在三个维度上更加突出应用、突出产业。

一是更加重视面向人工智能应用的高质量数据集建设。建议设立人工智能+专场和高质量数据集建设专场,展示和交流各行各业人工智能最新应用和行业高质量数据集建设最佳实践。

二是更加重视传统产业的数字化转型。建议设立传统产业数字化转型专场,引导和示范不同领域不同阶段的传统产业,梯度开展信息系统(IT)、商业智能(BI)、人工智能(AI)应用。

三是更加重视数据要素的普惠化应用。建议设立国家数据基础设施建设专场,引导各级政府和技术服务企业,一方面不断突破数据安全流通技术,另一方面加大数据安全流通技术的应用范围,建设普惠互联、协调有力的全国一体化数据基础设施,为数据大规模流通提供可信安全环境,实现“数据自由”。

问:站在数据领域发展的角度,您对数博会举办地贵州的长远发展有什么寄语或期待?

张向宏:数博会已走过了11年的不平凡历程,面向下一个10年,以至将来50年,希望贵州打造成为全国乃至全球的“两地四区”,“两地”即数据技术策源地和数据制度新高地;“四区”即数据应用引领区、数据安全先行区、数据资源汇聚区和数据流通示范区。(林梦茵)

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动