9月2日下午15点52分,载有263名旅客的中国南方航空CZ375航班从广州顺利起飞,前往沙特阿拉伯第一大城市利雅得。适逢中沙建交35周年,这条航线的...
2025-09-04 0
导读 本次分享题目为线上异常指标智能分析,主要介绍大模型与 BI 结合方向上的一些进展,首先介绍业务中台面对的场景以及建设目标,其次是我们开展 Agent 的建设思路,最后是实践。
主要包括:
1. 中台项目背景介绍
2. Agent 建设思路
3. 智能分析探索与实践
分享嘉宾|彭阳 百度在线网络有限公司 技术专家
编辑整理|龚萱
内容校对|郭慧敏
出品社区|DataFun
01
中台项目背景介绍
首先和大家介绍下数据中台面对的业务场景。
在数据中台建设中,主要面对以下三个场景的数据需求:数据报表类需求、指标归因分析、数据洞察,其中最常见的是第一类数据分析需求。
1. 数据报表类需求
在数据分析的实际业务场景中,第一类需求是最常见的。对于业务而言,面对海量数据和复杂的业务逻辑,传统的处理方式往往需要分析师向数据开发团队提交需求,经过排期开发才能完成,这个过程不仅耗时,沟通成本也很高。虽然我们中台建设了 BIP 平台,通过拖拽式报表功能让业务伙伴能自助完成部分分析需求,但由于底层数据建模的复杂性和学习门槛,这种自助化能力仍然存在较大局限。
在引入大模型技术之前,我们尝试过自然语言转 SQL 的方案,比如 NL2SQL/Seq2SQL 和规则引擎的方式。这类技术对于固定模式的简单查询效果尚可,但遇到需要灵活调整或较为复杂的查询场景时就显得力不从心,导致这项能力长期处于调试优化的状态。
大模型技术的出现带来了根本性的突破。凭借其强大的逻辑推理和代码生成能力,结合针对性地进行的工程化适配,现在这项技术已经真正落地到生产环境,能够有效解决复杂查询的需求。目前这一方向已经成为行业共识,各大厂商都在积极推进相关能力的建设。可以说,从传统的人工开发模式,到部分自助化,再到现在通过大模型实现真正的智能分析,我们正在经历一场数据分析方式的革命性变革。
2. 指标归因分析
在第二个场景中,我们探讨了指标供应分析的应用。在业务场景中,这种能力经常被使用,例如在数据报表的制作过程中。当指标出现异常时,通常需要进行指标分析,随后开展关联业务分析。这一过程往往较为繁琐和耗时。通过一系列分析后,我们得出相应结论,此时可以考虑对方案进行优化。例如,利用归因分析 Agent 学习业务方案,借鉴其分析思路,最终自动化生成归因分析报告,从而提升效率和准确性。
3. 数据洞察
数据洞察场景更智能化,旨在优化运营或 PM 同学的日常工作。这些同学每日首要任务是检查业务报表异常,如有异常则需手动分析。为此,我们提供天级任务看板,在数据产出后自动推送潜在异常及其原因。以百家号运营为例,看板首先显示当日异常处理数量,其次展示核心指标每日表现(如新增发文量突降),并分析原因(如体育垂类波动导致),进一步定位到具体责任机构,同时推荐解决方案。这样,运营同学可省去大量数据分析工作,直接通过动态看板进行业务决策。
针对刚才的这三类需求,我们通过 AI 加 BI 建设提升业务数据分析和数据洞察效率。主要做这几件事情:
02
Agent 建设思路
针对数据中台 Agent 的建设思路,我们将其分为四部分:
在 BI 平台的智能化架构设计中,我们构建了由两大核心模块组成的系统。
当用户发起请求时,首先经过智能编排模块,该模块深度解析用户意图,识别其所属场景和查询目的,并据此规划相应的任务执行路径。
随后进入 Agent 集合模块,这里整合了两类 Agent 能力:平台内置的数据分析 Agent(如智能用数、智能归因等)和业务方自主开发的定制化 Agent(如全网热点搜索、指标业务分析等)。这种设计源于对复杂业务场景的洞察,需要数据分析 Agent 与业务 Agent 协同形成工作流来精准定位问题。每个 Agent 都独立维护运行状态和输出结果,这些结果将作为后续 Agent 的输入依据。
最终,所有分析过程会汇总至总结模块,经过系统化梳理后生成完整的分析报告反馈给用户。
03
智能分析探索与实践
1. 智能问数&归因
在智能分析落地的实践中,智能问数和归因分析的关键在于数仓建设。当前行业存在两种主流路径:
我们观察到传统四层建模存在明显缺陷:结构过于复杂导致表数量快速膨胀(部分业务层级达 500 多张表),指标分散且同名称在不同层级可能含义和计算方式不同,这直接导致需求开发困难(需编写数百行 SQL 或十多张表关联),同时也严重影响了 chatBI 和归因分析的准确率。尽管尝试了多种工程化手段,但准确度提升仍面临瓶颈。为此,我们采用宽表建模构建指标中台的方式来应对这些挑战,旨在优化数据结构、降低维护成本并提升分析准确性。
这一方案的核心在于将复杂的加工逻辑集中沉淀到宽表层,并采用 HDFS 和 ClickHouse 实现冷热数据分层存储。重构过程中,我们特别注重将新增或变更的指标维度同步至指标中台,确保在宽表层就完成指标口径的统一管控。实施后成效显著:原本 500 多张层级表被精简为 20 余张核心宽表,数据结构大幅简化。现在用户只需编写简单 SQL 语句或通过 chatBI 生成简单 SQL,即可完成大多数分析需求。目前该体系已实现业务自主分析占比达 80%,仅 20% 需求需要数据开发团队介入进行宽表迭代优化,整体效率得到质的提升。
在完成数仓重构后,我们重点推进了智能问数与归因分析能力的建设。智能问数的核心在于提升准确率和时效性,其技术实现本质是通过表的 schema 和用户查询信息生成可执行的 SQL。但这一过程面临多重挑战:如何精准匹配用户查询与表字段、理解各业务方的专业术语、提升响应速度,以及处理 SQL 生成错误等问题。为此,我们将问数流程划分为数据构建和查询分析两大阶段。
我们采用小模型和 RAG 技术相结合的方式,借助宽表建模的成果(将多表查询简化为 1-2 张表查询)和全面的业务场景覆盖,使表召回准确率显著提升,为后续流程奠定了坚实基础。
在字段选择阶段,我们充分利用宽表建模的优势,通过 RAG 和高级 RAG 技术实现智能字段筛选。由于宽表字段较多,直接全量输入会影响大模型处理的准确性和时效性,因此我们采用基于相似查询案例的 few-shot 学习方式,精准召回相关字段。在 SQL 生成环节,我们选用经过 DeepSeek-R1 蒸馏的 32B 小模型,在保证准确率的同时显著提升响应速度。针对特殊情况,系统可灵活切换至 R1 或 V3 等大模型,配合完善的 RAG 工程确保效果。最后,我们设计了自我修正机制,当生成的 SQL 出现错误时,系统会自动进行反思和二次回答,经过多重校验后才会将最终结果交付业务方使用。这种分层处理方式既保证了智能问数的准确性,又维持了高效的服务响应能力。
完成智能问数能力建设后,我们重点推进了归因分析功能的开发。针对业务报表中常见的指标波动问题,传统的人工排查方式需要从数十个维度逐一分析,效率较低。为此,我们构建了一套通用归因分析解决方案:首先获取指标数据并计算同比环比,识别异常指标;然后通过维度权重挖掘(基于查询频次赋予不同权重)和贡献度计算(采用超均、波动等业界通用算法),最终输出归因结果。该方案的显著优势在于扩展性强,可适配各类业务场景,且采用的技术方案成熟稳定。但同时也存在明显局限:仅适用于单表分析,无法理解业务指标间的内在关联,导致准确性不足。特别是当业务方需要按照特定逻辑(如依次分析指标 A、B、C)进行归因时,这种通用方法难以满足需求。这反映出当前方案在业务理解深度方面的不足,也是我们后续需要重点优化的方向。
2. 指标智能洞察
为优化归因分析方案,我们核心思路是让智能体深度贴合业务,学习其分析思路的思考过程,完全按照业务逻辑进行问题分析。以百家号智慧运营合作为例:当发现发文量减少时,其业务排查流程为:
通用归因分析无法解决此类业务定制问题,因此我们改造归因分析 Agent,使其学习并固化这套业务排查流程。具体实现上,将业务排查过程构建为知识图谱,运用 Graph-RAG 技术拆解为三要素:实体模型(核心分析步骤节点)、关系定义(步骤间因果/依赖触发关系) 和路径推理(基于有向无环图结构,由大模型学习业务经验动态决策下游路径),让 Agent 学习业务的排查逻辑。
在第二个案例中,我们将数据分析 Agent 能力深度集成到 QA 团队的线上问题排查助手。背景源于各 APP 频繁出现崩溃或卡顿问题,其根本原因常是业务方在 APP 进行线上资源变更引发用户崩溃。当前排查完全依赖人找人的传统方式,导致问题定位时间显著延长,进而加剧现场问题对用户的实际影响。我们发现这种流程存在明显缺陷:定位耗时长短高度依赖值班同学对端上各组件或模块的熟悉程度,这种随机性极大的机制是不合理的。
为此,我们将智能洞察能力嵌入问题定位全流程:当线上指标出现异常时,首要动作是启动归因分析 Agent,自动诊断问题核心特征(复用第一个案例的 Agent 能力)。同时响应业务核心诉求——还原业务现场,通过专门构建的用户行为分析 Agent,深度挖掘受影响用户的共同行为模式。
具体实施分为三阶段精准推进:
3. 多 Agent 智能编排
在第二个案例中,我们将数据分析 Agent 能力深度集成到 QA 团队的线上问题排查助手。背景源于各 APP 频繁出现崩溃或卡顿问题,其根本原因常是业务方在 APP 进行线上资源变更引发引发用户崩溃。当前排查完全依赖人找人的传统方式,导致问题定位时间显著延长,进而加剧现场问题对用户的实际影响。我们发现这种流程存在明显缺陷:定位耗时长短高度依赖值班同学对端上各组件或模块的熟悉程度,这种随机性极大的机制是不合理的。
我们与各业务方共同建设了三大核心 Agent 体系。
通过这套 Agent 体系,业务同学处理指标问题的模式发生根本性变革:从传统"人找人"的跨模块协同(耗时小时级),转变为掌握 Agent 工具后的自主分钟级定位。当前各 Agent 的准确率均稳定在 80% 以上。
为满足业务方对快速数据分析及线上指标异常即时定位的需求,我们与业务方协作构建了系列工具与 Agent 体系。但随着复杂场景增多,业务方在指标定位时需协同调用多个 Agent 工具,导致用户面临学习成本过高的问题——许多业务方仍沿用传统人工排查方式,不愿使用新工具。
为此我们对调用机制进行重大调整:取消业务方手动调用工具的模式,转而基于异常场景增设智能编排模块。该模块通过学习业务方历史排查步骤,在指标异常发生时自动调度各 Agent 工具协同作业,最终直接生成问题定位报告。
在智能规划 Agent 的架构选型中,我们调研了业界多类框架:
以线上问题分析为例,编排模块将流程拆解为三阶段闭环:
全流程终结时,系统自动汇总各阶段结论形成完整定位报告交付业务方。该机制从根本上解决工具碎片化问题,使业务方从"学习调用工具"转为"直接获取解决方案",大幅提升复杂场景下的响应效率。
我们以实际落地的编排案例说明运作效果:当线上指标出现异常时,系统自动生成完整分析报告。该报告具备清晰的逻辑分层:
所有 Agent 执行完毕后,由总结分析 Agent 整合全流程分析结果。值得注意的是,智能编排过程可能存在误判(如将"变更单引入问题"错误归因,实际应为"发板引入")。此时系统启动纠错机制:通过自然语言交互修正结论(如将"变更单"手动修正为"发板"),后续步骤立即基于修正结论重新编排工具链生成新结果。
整体而言,本次分享聚焦数据中台如何通过大模型赋能 BI 平台,核心价值在于显著提升业务方"问数"效率、数据分析及洞察效能,我们更期望这些实践能为大家提供建设思路。
以上就是本次分享的内容,谢谢大家。
相关文章
9月2日下午15点52分,载有263名旅客的中国南方航空CZ375航班从广州顺利起飞,前往沙特阿拉伯第一大城市利雅得。适逢中沙建交35周年,这条航线的...
2025-09-04 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-04 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-04 0
发表评论