首页 抖音推荐文章正文

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

抖音推荐 2025年08月25日 11:15 1 admin

Apache Cloudberry™ (Incubating) 由 Greenplum Database 原厂核心开发者创建,是一款领先且成熟的开源大规模并行处理(Massively Parallel Processing,MPP)数据库。它是在开源版的 Pivotal Greenplum Database® 基础上衍生而来的,但采用了更新的 PostgreSQL 内核,并具备更先进的企业级功能。Cloudberry 可以作为数据仓库使用,也很适合大规模分析和 AI/ML 工作负载。为了加速 Apache Cloudberry 开源生态建设,酷克数据 HashData 以线下交流的形式发起系列主题 Meetup,汇聚各方智慧,凝聚各方力量。

8 月 16 日,由酷克数据 HashData 发起的 Apache Cloudberry™ (Incubating) Meetup 北京站在北京颐堤港写字楼·亚马逊云科技办公室顺利举办。此次活动以“探究 Cloudberry 2.0 新特性,深入 Apache 之道”为主题,吸引了数据库开发者、架构师以及开源社区成员的参与。围绕 Cloudberry 2.0 的技术演进、开源合规实践以及数据库与 AI 融合的新方向,现场展开了深入交流。

本次活动成功举办,特别感谢亚马逊云科技提供活动场地支持,感谢各位社区合作伙伴的支持!

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

Cloudberry 2.0:开源 MPP 数据库的进化

活动伊始,酷克数据研发 VP、Apache Cloudberry PPMC 成员杨瑜对 Apache Cloudberry 2.0 全新版本进行了系统分享。Cloudberry 最早项目立项于 2022 年,并在 2023 年 6 月以 Apache 2.0 协议完全开源。2024 年 10 月,它正式进入 Apache 孵化器。如今,其 GitHub Star 已突破一千,而 2.0 版本作为进入 Apache 孵化后的首个重要里程碑,已进入发布候选阶段(RC3)。这一发展路径既是对闭源风险的应对,也彰显了通过开源社区实现可持续发展的战略选择。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

Cloudberry 2.0.0 的新特性主要体现在三个维度:内核增强、存储优化和生态扩展。分布式架构方面,Cloudberry 在高可用机制上引入了基于 ETCD 的集群拓扑管理,Coordinator 节点与 Standby 节点之间可实现自动故障切换,而数据节点则提供“组镜像”与“分散镜像”两种模式,分别兼顾高可靠与高性能。在查询优化上,团队为 WindowAgg 等复杂计算实现了两阶段窗口聚合,预先过滤数据以减少跨节点传输,显著改善分区键倾斜问题。

在优化器方面,ORCA 的能力得到了进一步扩展。它新增了对 AO 表索引扫描、动态索引扫描以及向后索引扫描的支持,显著提升分析型负载下的查询效率。新的 Plan Hints 机制允许开发者在必要时干预执行计划,而动态分区消除(DPE)和哈希子计划等优化手段则进一步减少跨节点的数据传输压力。统计模型层面,Cloudberry 已能够处理多变量 NDV 统计和空值倾斜分析,为基数估计提供更高精度。

在存储层,Cloudberry 2.0 推出了 PAX 行列混存引擎,通过微分区设计兼顾行存的事务效率与列存的分析性能,为 HTAP 场景提供高性能支持,同时保持低延迟事务处理。AI 场景方面,plcontainer 集成了 Python/R UDF,pgvector 与 ZomboDB 的引入为向量检索和全文搜索的结合提供了基础设施,服务于包括 RAG 在内的新兴智能应用场景。

从孵化之路看合规与社区治理

酷克数据开源负责人、Apache Cloudberry PPMC 成员王殿进以 Cloudberry 的孵化历程为例,分享了 Cloudberry 项目在 Apache 孵化器下进行开源合规治理的实践经验。在 Greenplum 走向归档闭源开发, Cloudberry 进入 Apache 孵化器进行孵化开发,希望以中立的治理框架保障其长期发展,避免 Cloudberry 再次面临 Greenplum 归档闭源的风险。这一选择避免了因厂商并购或商业策略调整带来的风险,也确保了项目的技术创新能够在社区驱动下持续演进。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

Cloudberry 的孵化实践是一个生动的开源合规治理实践。从最初的孵化提案,到基础设施迁移、品牌重塑、许可证清理,再到最终的双重投票发布流程,每一步都严格遵循 Apache 的规则。例如,团队引入 Apache RAT 自动化工具保障代码合规;在品牌重塑时,从 Logo 到命名到环境变量,项目都进行了替代升级,确保完全符合 ASF 的商标和品牌政策。

这种严格的治理机制并不仅仅是形式上的约束,而是真正促进了社区的成长。在短短 307 天的孵化期内,Cloudberry 核心贡献者团队目前已有 27 位 Committer 和 24 位 PPMC 成员。在即将到来的 Cloudberry 2.0 版本中,合计共有 25 名贡献者、发生 1980 次 Commit。

Apache 之道:开放治理的力量

活动还邀请 Apache 软件基金会前董事、Apache 会员姜宁深入介绍了 Apache 软件基金会的独特运作模式。ASF 的治理被比喻为“双轨制”:一方面,PMC 负责项目的技术决策与版本发布;另一方面,ASF 董事会则通过选举产生,负责基金会整体方向与合规监督。这种分权设计保证了项目的自治与组织的中立。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

在 ASF,贡献者的成长路径清晰且透明:从用户到贡献者,再到 Committer,最终有机会成为 PMC 成员甚至 ASF Member。这一切都基于公开的代码贡献与社区信任,每一次晋升都需要公开投票与透明记录。这种文化塑造了一个真正 merit-based 的开源环境。

ASF 的核心精神在于极致透明与民主治理。无论是项目的孵化提案、基础设施的调整,还是商标法律问题的处理,所有讨论都必须在邮件列表中公开进行,形成永久存档。这样的规则不仅保证了社区的公正与包容,也让项目免受单点风险影响。

PAX 行列混存方案与 AI 分析平台

技术层面上,Cloudberry 2.0 最受关注的亮点之一是 PAX 行列混存引擎。在活动中,酷克数据内核研发工程师、Apache Cloudberry Committer 龚勋深入解析了这一方案的特性。PAX 在保持事务一致性的同时,引入列存的高压缩率与向量化执行能力,为 HTAP 场景提供了天然支持。其核心在于 MicroPartition 设计:数据被划分为小块分区,既能高效扫描,又能灵活支持更新和事务管理。实测表明,PAX 在分析查询中可带来数倍性能提升,而事务延迟的增加却控制在极低水平。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

(龚勋线上分享 PAX 行列混存引擎)

与此同时,AO/CO 表也获得了增强,存储模型能够在 Heap、AO、AOCO 之间灵活切换,DDL 操作如索引创建和列编码修改更加高效。安全层面上,Cloudberry 2.0 引入 FIPS 模式加密,并在权限管理上进一步细化,修复了并发物化视图刷新中的潜在数据泄露问题,整体上为企业级场景提供了更可靠的保障。

Cloudberry 还积极探索数据库与 AI 的深度融合。酷克数据数据科学工程师卞传鑫分享了基于 Cloudberry 构建统一分析平台的技术探索,聚焦于数据智能一体化的构建思路与平台实现。Cloudberry 在保留 MPP 并行处理优势的同时,原生兼容向量检索能力扩展(pgvector)、支持非结构化数据管理(如目录表机制)、以及支持透明数据加密与行列混合存储等 AI 相关特性,全面打通数据与智能间的屏障。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

基于 Apache Cloudberry 构建了面向智能场景的双引擎体系——结构化数据由 Cloudberry 的分布式计算引擎负责处理,AI 能力则通过嵌入式智能引擎提供,包括大模型私有化部署、语义向量化、标签生成、微调与后训练等多种能力。通过全文索引与向量索引融合的智能检索机制,Cloudberry 在问答系统、运维助手、企业知识库等应用中表现出良好的性能和可扩展性。

活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站

(Apache Cloudberry 2.0 发布茶歇区:主题饮品、精美点心与庆祝布置,共同迎接 2.0 里程碑版本发布)

此次 Meetup 既是一场关于数据库内核演进的深度技术交流,也是一场关于开源治理的实践分享。随着 2.0 版本的正式发布临近,Cloudberry 将继续遵循并实践“Apache 之道”,在全球开发者的共同推动下不断演进向前。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动