首页 百科大全文章正文

构建 AI 时代的大数据基础设施

百科大全 2025年08月14日 09:49 1 admin

导读在当今数字化时代,人工智能(AI)的发展离不开强大的大数据基础设施支持。AI 的核心要素包括数据、算力和模型,而数据更是被视为 AI 的“养料”。然而,随着数据量的爆发式增长以及数据类型的日益复杂,企业在构建和管理大数据基础设施时面临着诸多挑战,如运维复杂、效率低下、成本高昂等。阿里云智能计算平台事业部 MaxCompute 负责人张治国老师在本次分享中的详细介绍了构建 AI 时代大数据基础设施的关键内容,包括企业对大数据平台的新需求、阿里云数智一体计算平台的架构与优势,以及相关技术演进和应用场景等。

分享嘉宾|张治国 阿里云智能集团技术研究员、阿里云智能计算平台事业部自研大数据平台MaxCompute负责人

内容校对|郭慧敏

出品社区|DataFun


AI 核心要素

AI 的发展离不开三大核心要素:数据、算力和模型。数据是 AI 的“养料”,无论是大模型应用还是其他 AI 应用,都离不开数据的支持;算力是基础,AI 特别是大模型的训练和推理需要强大的算力支持;模型则是骨架,通过优秀的算法和模型设计,AI 能够实现更智能的决策和分析。

构建 AI 时代的大数据基础设施

Data + AI 痛点:运维,效率,成本

随着数据量的不断增长和数据类型的多样化,企业面临着诸多痛点。

  • 数据类型繁多,管理混乱,海量的结构化和非结构化数据分布在不同的存储介质中,形成了数据孤岛。跨模态数据的处理、融合和对齐难度大,依赖不同的库和复杂的环境。
  • 数据开发与模型开发脱节,涉及多种角色(数据工程师、数据分析师、数据科学家)和多个平台(大数据平台和 AI 平台),使用多种语言(SQL 和 Python),导致数据迁移和流程割裂,沟通成本高。
  • 性能弹性能力差,成本高,处理效率低,开源计算框架大多独立部署且未经过性能优化,难以满足大规模数据处理的需求。
  • 工程化实现方面,缺少统一运维管理,企业采用自建、开源架构,采购多方系统,日常运维成本高,难以满足企业安全要求,开发体验脆弱,不具备鲁棒性

AI Native 时代,企业对大数据平台的需求升级

在 AI Native 时代,企业对大数据平台的需求发生了显著变化。企业需要一个统一的Data + AI 平台,实现一体化的 Data + AI 计算和开发,打破数据与 AI 平台之间的壁垒。同时,企业希望平台能够提供高效 AI 数据处理能力,支持异构算力和极致弹性的多模态处理能力,提供通用高效的 LLM/VLM 模型数据分布式处理算子。此外,AI 进一步放大数据价值,增强数据开发运维使用效率,由人分析数据提炼价值迅速过渡到 AI/LLM 利用数据直接实现业务价值变现,提升数据价值。


面向AI-Native 时代,阿里云数智一体计算平台

阿里云的数智一体计算平台为企业提供了全面的解决方案。平台架构从基础设施层到应用层涵盖了多个层面,包括计算、网络、存储等基础设施,大数据计算平台 ODPS、实时计算引擎 Flink、人工智能平台 PAI 等平台层组件,以及数据可视化、数据湖、数据仓库、湖仓一体等应用层服务。通过一体化的 Data + AI 计算平台,企业能够实现数据与 AI 的深度融合,提升数据价值。

构建 AI 时代的大数据基础设施

阿里云ODPS 自研大数据平台15 年的演进

阿里云的 ODPS(Open Data Processing Service)自 2009 年诞生以来,经历了 15 年的持续演进。

构建 AI 时代的大数据基础设施

2010 年,ODPS 发布了第一个版本,主要关注 SQL 引擎的性能、稳定性和规模。2012 年,单集群规模达到 5K。2013年,阿里集团的大数据处理全面迁移到 MaxCompute 上。2014年,MaxCompute 对外发布,成为阿里云首个对外服务的大数据平台。2015 年,MaxCompute 2.0 发布,重点在于 Serverless 弹性、存算分离架构;同期发布了 DW+MC 数加平台。2019 年,MaxCompute 3.0 发布,着重于湖仓一体;同时发布了Hologress,聚焦实时计算能力。2023 年,MaxCompute 4.0 发布,引入了开放架构、增量计算和 Data + AI 融合。2024 年,Object Table 和 AI Function 发布,进一步提升了多模态数据管理能力。2025 年,即将发布 AI 异构计算能力,支持 CPU 和 GPU 的统一异构计算。

ODPS -MaxCompute Data + AI

从计算引擎层来看,MaxCompute 是如何在“数据 + AI”架构下构建大数据平台的?

架构底层包含三种数据类型:结构化数据存于数据仓库,半结构化数据可能在数据仓库或数据湖中,而非结构化数据多存于数据湖。


构建 AI 时代的大数据基础设施

MaxCompute 通过 ListTable 和 ObjectTable 统一纳管数据湖与数据仓库中的数据,借助 AI Function实现公共模型、自训练模型及远端调用模型的无缝对接,支持 C 语言和 Python 等编程语言进行统一的大数据处理与分析。

在数据处理方面,MaxCompute 的优势主要体现在以下三点:

第一,极致弹性异构算力。MaxCompute 采用 Serverless 架构,支持开箱即用,无需提前部署和规划资源。它支持“Pay as you go”(按用量付费)和“Quota reservation”(预留模式),存算分离架构使得存储和计算可以独立扩展,集群自动弹性,按使用量付费,10 秒内可拉起 10 万 CU 计算。多租共享架构提高了资源利用率,为用户提供了更低成本的资源。

第二,多模态数据统一管理。通过 ObjectTable,MaxCompute 将数据湖中的多模态非结构化数据进行结构化处理,实现统一管理。借助“湖仓一体”架构,MaxCompute 能够链接更多数据,通过统一元数据服务和统一数据访问通道,支持多种数据格式和存储方式。

第三,模型开发与数据开发无缝连接。MaxCompute 支持 SQL 和 Python 统一计算,提供高效 AI 算子,可应用于大模型的文本预处理、图像预处理等场景,让 AI 能力轻松融入数据分析中。

通过以上优势,MaxCompute 在“Data + AI”架构下,为构建高效、灵活且低成本的大数据平台提供了强大支持。

ODPS - MaxCompute 极致弹性Serverless

MaxCompute 的 Serverless 架构具有极致弹性,能够根据负载自动扩展资源。用户无需关心底层资源的管理,只需按使用量付费。

构建 AI 时代的大数据基础设施

这种模式特别适合 AI 大数据处理场景,能够有效降低成本。MaxCompute 支持增量计算框架,通过声明式 SQL 决定增量或全量计算,提高计算效率。查询加速功能 MaxQA 提供了更稳定、高效的查询性能,支持 UDF、APPEND Delta Table 和增量物化视图功能。

ODPS - MaxCompute 高性价比增全量计算

MaxCompute 通过增量表格式和增量计算引擎的全面升级,实现了数据源的统一管理和高效处理。支持多种数据格式和计算框架,提供统一的表服务和元数据管理。

构建 AI 时代的大数据基础设施

MaxCompute 的交互式查询与分析功能也得到了全面升级,支持专属查询加速资源,确保更高的稳定性,对“GB~TB 级别”数据实现秒级执行,对“PB级别”数据实现分钟级执行。

ODPS - MaxCompute 多模态数据管理

MaxCompute 的多模态数据管理通过 Object Table 实现,能够将湖上的多模态非结构化数据以表的形式管理,支持高效的统一查询和处理。

构建 AI 时代的大数据基础设施

Object Table 提供了缓存加速、性能加速和查询优化等功能,简化了数据访问和管理。MaxCompute 通过 MaxMeta 统一元数据服务和 MaxStorageAPI 统一数据访问通道,支持多种数据格式和存储方式,包括AliORC、Paimon/Parquet/ORC/Open format 等。

ODPS - MaxCompute MaxFrame 引擎

MaxFrame 是 MaxCompute 提供的高效分布式 Python 计算引擎,兼容 Pandas,能够自动根据算子决定分布式计算的方式。

构建 AI 时代的大数据基础设施

MaxFrame 支持数据预处理、模型训练和模型推理,通过 AI 算子将模型服务直接应用于数据分析和处理。MaxFrame 提供了统一的开发界面和交互式开发环境,支持多种运行资源,包括 CPU 和 GPU。

ODPS - MaxCompute AI Function

构建 AI 时代的大数据基础设施

AI Function 是 MaxCompute 提供的一种低门槛 AI 推理分析能力,面向 SQL 分析师。通过 AI Function,用户可以将不同的模型(如 LLM、DeepSeek-R1 等)定义为模型对象,并通过统一的 AI Function 进行调用。AI Function 支持多模态数据处理、内容生成、信息抽取和图文解析等应用场景。

ODPS - MaxCompute Data + AI 支持行业应用

MaxCompute 在多个行业应用中发挥了重要作用。例如,在大模型预训练中,海量 Web 文本去重是一个关键步骤。MaxCompute 提供了高效的文本去重算子,通过 MinHash + LSH Band 指纹计算和分布式传递相似性计算,实现了大规模文本的高效去重。相比用户自建方案,MaxCompute 在性能上提升了两倍,能够更快地完成数据处理任务。

构建 AI 时代的大数据基础设施

ODPS - DataWorks Data + AI 开发新模式

DataWorks 提供了 Data + AI 开发的新模式,结合 MaxFrame 分布式计算框架,支持通过 SQL 与 Python 相结合的方式,轻松访问 MaxCompute 中的海量数据。

构建 AI 时代的大数据基础设施

DataWorks 提供了 Notebook 交互式开发环境,支持统一镜像管理、快捷启停 MaxFrame、SQL + Python 交互式查询、数据对象管理等功能。此外,DataWorks 还提供了多引擎运行资源、工作流编排与调度、数据可视化和 Copilot 智能助手等功能,帮助用户高效完成数据开发和 AI 模型训练。

ODPS - DataWorks Copilot

DataWorks Copilot 是一个智能 SQL 编程助手,能够为数据开发与分析提效 30% 以上。它提供了 AI Agent 服务,简化数仓开发与管理,提供基于自然语言的用户交互界面和智能化产品体验。

构建 AI 时代的大数据基础设施

Copilot 支持 SQL 生成、SQL 代码补全、SQL优化、智能找表、智能建表、智能元数据增强、SQL 测试、SQL错误改写、智能图表生成、代码变更描述生成、AI 代码评审、SQL注释、SQL 解释、SQL 问答、数据质量规则生成和 ETL 任务创建等功能。MaxCompute SQL 进行了大量精细化 NL2SQL 模型微调,支持多种推理模型,如 Qwen2.5、Qwen3-235B、DeepSeek-R1 等。

ODPS - DataWorks ChatBI

构建 AI 时代的大数据基础设施

DataWorks ChatBI 以智能对话为核心,实现从问题理解到可视化报告的全流程自动化分析。它帮助数据分析师与业务人员高效完成复杂数据洞察。ChatBI 支持智能取数、智能理解、智能数据可视化、智能分析与总结等功能。用户可以通过自然语言输入,系统自动理解问题、提取数据、生成 SQL 查询、调用后端数据源,并根据结果生成可视化报告和分析建议。ChatBI 支持多种数据类型和分析场景,如订单金额分析、异常值分析、业务术语分析、周期波动分析、商品折扣对利润的影响分析等。

总结

构建 AI 时代的大数据基础设施是企业数字化转型的关键。阿里云的 MaxCompute 和 DataWorks 提供了从数据管理、计算引擎到 AI 开发的一体化解决方案,帮助企业解决了数据孤岛、开发效率低、成本高等痛点。通过极致弹性的 Serverless 架构、多模态数据统一管理和高效的 AI 开发工具,企业能够更好地挖掘数据价值,实现业务增长。未来,随着 AI 技术的不断发展,阿里云将继续推动大数据基础设施的创新,为企业提供更强大的技术支持。

以上就是本次分享的内容,谢谢大家。

构建 AI 时代的大数据基础设施

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动