亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-16 0
分享嘉宾|张治国 阿里云智能集团技术研究员、阿里云智能计算平台事业部自研大数据平台MaxCompute负责人
内容校对|郭慧敏
出品社区|DataFun
AI 核心要素
AI 的发展离不开三大核心要素:数据、算力和模型。数据是 AI 的“养料”,无论是大模型应用还是其他 AI 应用,都离不开数据的支持;算力是基础,AI 特别是大模型的训练和推理需要强大的算力支持;模型则是骨架,通过优秀的算法和模型设计,AI 能够实现更智能的决策和分析。
随着数据量的不断增长和数据类型的多样化,企业面临着诸多痛点。
AI Native 时代,企业对大数据平台的需求升级
在 AI Native 时代,企业对大数据平台的需求发生了显著变化。企业需要一个统一的Data + AI 平台,实现一体化的 Data + AI 计算和开发,打破数据与 AI 平台之间的壁垒。同时,企业希望平台能够提供高效 AI 数据处理能力,支持异构算力和极致弹性的多模态处理能力,提供通用高效的 LLM/VLM 模型数据分布式处理算子。此外,AI 进一步放大数据价值,增强数据开发运维使用效率,由人分析数据提炼价值迅速过渡到 AI/LLM 利用数据直接实现业务价值变现,提升数据价值。
阿里云的数智一体计算平台为企业提供了全面的解决方案。平台架构从基础设施层到应用层涵盖了多个层面,包括计算、网络、存储等基础设施,大数据计算平台 ODPS、实时计算引擎 Flink、人工智能平台 PAI 等平台层组件,以及数据可视化、数据湖、数据仓库、湖仓一体等应用层服务。通过一体化的 Data + AI 计算平台,企业能够实现数据与 AI 的深度融合,提升数据价值。
阿里云的 ODPS(Open Data Processing Service)自 2009 年诞生以来,经历了 15 年的持续演进。
2010 年,ODPS 发布了第一个版本,主要关注 SQL 引擎的性能、稳定性和规模。2012 年,单集群规模达到 5K。2013年,阿里集团的大数据处理全面迁移到 MaxCompute 上。2014年,MaxCompute 对外发布,成为阿里云首个对外服务的大数据平台。2015 年,MaxCompute 2.0 发布,重点在于 Serverless 弹性、存算分离架构;同期发布了 DW+MC 数加平台。2019 年,MaxCompute 3.0 发布,着重于湖仓一体;同时发布了Hologress,聚焦实时计算能力。2023 年,MaxCompute 4.0 发布,引入了开放架构、增量计算和 Data + AI 融合。2024 年,Object Table 和 AI Function 发布,进一步提升了多模态数据管理能力。2025 年,即将发布 AI 异构计算能力,支持 CPU 和 GPU 的统一异构计算。
从计算引擎层来看,MaxCompute 是如何在“数据 + AI”架构下构建大数据平台的?
架构底层包含三种数据类型:结构化数据存于数据仓库,半结构化数据可能在数据仓库或数据湖中,而非结构化数据多存于数据湖。
MaxCompute 通过 ListTable 和 ObjectTable 统一纳管数据湖与数据仓库中的数据,借助 AI Function实现公共模型、自训练模型及远端调用模型的无缝对接,支持 C 语言和 Python 等编程语言进行统一的大数据处理与分析。
在数据处理方面,MaxCompute 的优势主要体现在以下三点:
第一,极致弹性异构算力。MaxCompute 采用 Serverless 架构,支持开箱即用,无需提前部署和规划资源。它支持“Pay as you go”(按用量付费)和“Quota reservation”(预留模式),存算分离架构使得存储和计算可以独立扩展,集群自动弹性,按使用量付费,10 秒内可拉起 10 万 CU 计算。多租共享架构提高了资源利用率,为用户提供了更低成本的资源。
第二,多模态数据统一管理。通过 ObjectTable,MaxCompute 将数据湖中的多模态非结构化数据进行结构化处理,实现统一管理。借助“湖仓一体”架构,MaxCompute 能够链接更多数据,通过统一元数据服务和统一数据访问通道,支持多种数据格式和存储方式。
第三,模型开发与数据开发无缝连接。MaxCompute 支持 SQL 和 Python 统一计算,提供高效 AI 算子,可应用于大模型的文本预处理、图像预处理等场景,让 AI 能力轻松融入数据分析中。
通过以上优势,MaxCompute 在“Data + AI”架构下,为构建高效、灵活且低成本的大数据平台提供了强大支持。
MaxCompute 的 Serverless 架构具有极致弹性,能够根据负载自动扩展资源。用户无需关心底层资源的管理,只需按使用量付费。
这种模式特别适合 AI 大数据处理场景,能够有效降低成本。MaxCompute 支持增量计算框架,通过声明式 SQL 决定增量或全量计算,提高计算效率。查询加速功能 MaxQA 提供了更稳定、高效的查询性能,支持 UDF、APPEND Delta Table 和增量物化视图功能。
MaxCompute 通过增量表格式和增量计算引擎的全面升级,实现了数据源的统一管理和高效处理。支持多种数据格式和计算框架,提供统一的表服务和元数据管理。
MaxCompute 的交互式查询与分析功能也得到了全面升级,支持专属查询加速资源,确保更高的稳定性,对“GB~TB 级别”数据实现秒级执行,对“PB级别”数据实现分钟级执行。
MaxCompute 的多模态数据管理通过 Object Table 实现,能够将湖上的多模态非结构化数据以表的形式管理,支持高效的统一查询和处理。
Object Table 提供了缓存加速、性能加速和查询优化等功能,简化了数据访问和管理。MaxCompute 通过 MaxMeta 统一元数据服务和 MaxStorageAPI 统一数据访问通道,支持多种数据格式和存储方式,包括AliORC、Paimon/Parquet/ORC/Open format 等。
MaxFrame 是 MaxCompute 提供的高效分布式 Python 计算引擎,兼容 Pandas,能够自动根据算子决定分布式计算的方式。
MaxFrame 支持数据预处理、模型训练和模型推理,通过 AI 算子将模型服务直接应用于数据分析和处理。MaxFrame 提供了统一的开发界面和交互式开发环境,支持多种运行资源,包括 CPU 和 GPU。
AI Function 是 MaxCompute 提供的一种低门槛 AI 推理分析能力,面向 SQL 分析师。通过 AI Function,用户可以将不同的模型(如 LLM、DeepSeek-R1 等)定义为模型对象,并通过统一的 AI Function 进行调用。AI Function 支持多模态数据处理、内容生成、信息抽取和图文解析等应用场景。
MaxCompute 在多个行业应用中发挥了重要作用。例如,在大模型预训练中,海量 Web 文本去重是一个关键步骤。MaxCompute 提供了高效的文本去重算子,通过 MinHash + LSH Band 指纹计算和分布式传递相似性计算,实现了大规模文本的高效去重。相比用户自建方案,MaxCompute 在性能上提升了两倍,能够更快地完成数据处理任务。
DataWorks 提供了 Data + AI 开发的新模式,结合 MaxFrame 分布式计算框架,支持通过 SQL 与 Python 相结合的方式,轻松访问 MaxCompute 中的海量数据。
DataWorks 提供了 Notebook 交互式开发环境,支持统一镜像管理、快捷启停 MaxFrame、SQL + Python 交互式查询、数据对象管理等功能。此外,DataWorks 还提供了多引擎运行资源、工作流编排与调度、数据可视化和 Copilot 智能助手等功能,帮助用户高效完成数据开发和 AI 模型训练。
DataWorks Copilot 是一个智能 SQL 编程助手,能够为数据开发与分析提效 30% 以上。它提供了 AI Agent 服务,简化数仓开发与管理,提供基于自然语言的用户交互界面和智能化产品体验。
Copilot 支持 SQL 生成、SQL 代码补全、SQL优化、智能找表、智能建表、智能元数据增强、SQL 测试、SQL错误改写、智能图表生成、代码变更描述生成、AI 代码评审、SQL注释、SQL 解释、SQL 问答、数据质量规则生成和 ETL 任务创建等功能。MaxCompute SQL 进行了大量精细化 NL2SQL 模型微调,支持多种推理模型,如 Qwen2.5、Qwen3-235B、DeepSeek-R1 等。
DataWorks ChatBI 以智能对话为核心,实现从问题理解到可视化报告的全流程自动化分析。它帮助数据分析师与业务人员高效完成复杂数据洞察。ChatBI 支持智能取数、智能理解、智能数据可视化、智能分析与总结等功能。用户可以通过自然语言输入,系统自动理解问题、提取数据、生成 SQL 查询、调用后端数据源,并根据结果生成可视化报告和分析建议。ChatBI 支持多种数据类型和分析场景,如订单金额分析、异常值分析、业务术语分析、周期波动分析、商品折扣对利润的影响分析等。
构建 AI 时代的大数据基础设施是企业数字化转型的关键。阿里云的 MaxCompute 和 DataWorks 提供了从数据管理、计算引擎到 AI 开发的一体化解决方案,帮助企业解决了数据孤岛、开发效率低、成本高等痛点。通过极致弹性的 Serverless 架构、多模态数据统一管理和高效的 AI 开发工具,企业能够更好地挖掘数据价值,实现业务增长。未来,随着 AI 技术的不断发展,阿里云将继续推动大数据基础设施的创新,为企业提供更强大的技术支持。
以上就是本次分享的内容,谢谢大家。
相关文章
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-16 0
8月14日晚,2025世界人形机器人运动会开幕式在国家速滑馆举行。在机器人代表方阵入场环节,史上第一个5×5纯AI机器人方阵亮相。它们不需要遥控器,便...
2025-08-16 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-16 0
发表评论