首页 抖音推荐文章正文

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

抖音推荐 2025年08月11日 02:25 1 admin

近几年,人工智能在数据分析和可视化领域掀起了一股热潮,尤其是“ChatBI”或 Data Agent 等概念备受关注。许多人误以为,“ChatBI”或 Data Agent 只是通过自然语言对话完成所有数据处理、分析和可视化任务,只要用文字清楚描述需求,AI 就能立刻给出完美结果。

事实上,数据分析和可视化的流程通常包括复杂的、不断迭代的数据预处理和可视化需求,且设计过程往往需要反复迭代调整。虽然大语言模型的发展使得 AI 可视化工具能够通过自然语言自动生成代码,极大减轻了初期的工作负担,但在实际的迭代创作中,理想设计往往难以一蹴而就。每次设计的更新都需要重新处理数据和绘制图表,AI 也难以一次性准确满足用户的多样需求。

更为复杂的是,纯自然语言交互虽然直观易用,但面对复杂的数据转换和多步骤的图表迭代时,用户常常面临以下困境:

  • 需要反复调整提示词,难以精准表达设计细节;
  • 需要管理多个数据和图表版本,工作量大且容易混乱;
  • 目前多数 AI 工具要求用户一次性通过文本提示完整描述需求,过程冗长繁琐,难以精确传达复杂视觉信息。

因此,单纯依赖自然语言提示完成所有操作,不仅加重了用户负担,也限制了 AI 工具在复杂分析场景中的应用潜力。

与此同时,如何更有效地利用 AI 辅助数据分析师进行可视化创作,依然面临诸多挑战。尤其是在可视化的迭代过程中,更新设计时反复从头描述需求既耗时又费力,AI 也难以一次性完成任务的准确表达。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

正是在深刻洞察这些问题的基础上,Data Formulator 2应运而生。它突破了“全靠语言描述”的局限,巧妙结合了可视化界面操作和自然语言输入。用户既可通过鼠标拖拽、点击完成绝大部分操作,也能用简短的自然语言补充说明设计意图,从而轻松实现复杂的可视化需求,真正实现了更自然、更高效的人机协作。

Data Formulator 2:结合图形界面操作与自然语言描述,让用户更好地与AI交流可视化设计

为了解决可视化迭代设计的难题,来自微软雷德蒙研究院的研究员们在 GitHub 上发布了一款 AI 驱动的开源可视化工具 Data Formulator 2。结合图形化用户界面(graphic user interface)和自然语言输入,Data Formulator 2能够极大提升用户向 AI 传达迭代过程中可视化设计的能力,使得 AI 能够根据用户的指令逐步完成复杂可视化作品的创作与更新。

Data Formulator

  • GitHub 链接:https://github.com/microsoft/data-formulator
  • 试用链接:https://github.com/microsoft/data-formulator/blob/main/CODESPACES.md
  • 论文链接:https://arxiv.org/abs/2408.16119

如图1所示,Data Formulator 2的交互界面设计巧妙。用户在构思可视化设计时,可首先通过右侧的 Concept Encoding Shelf 来描述设计目标。在迭代过程中,用户则可通过左侧的 Data Threads 回顾之前的可视化作品,选择合适的路径进行跟进,进而描述新的可视化目标或进行微调。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图1:Data Formulator 2 的用户交互界面

使用 Concept Encoding Shelf 描述可视化设计

Concept Encoding Shelf 的设计结合了传统图形化可视化工具中的“数据放置交互界面”(shelf configuration UI)与 AI 工具的自然语言输入功能,使用户能够更直观地描述可视化目标。用户在选定可视化类型(如柱状图、线性图)后,可通过拖拽数据列至相应的视觉通道(如 x 轴、y 轴、颜色等)来直接映射数据至图形。这种方法相比冗长的文字描述,更能直观且精确地传达图表的设计意图。

此外,Data Formulator 2 的独特之处在于,它允许用户通过自然语言添加原始数据中不存在的数据概念(data concept)到可视化映射中,从而打破现有数据格式的限制,实现更加深入和丰富的可视化设计。

如图2所示,用户可以在 y 轴上添加“可持续能源百分比”这一数据概念(尽管原始数据仅包含各种能源的消耗值而非百分比),Data Formulator 2 将自动决定如何转换原始数据,计算出所需的数据栏以完成这一可视化。同样地,若用户希望查看不同国家的可持续能源百分比排名,则可以在 y 轴上添加“排名”数据栏,并通过额外的自然语言描述“计算不同国家的排名”,以指导 Data Formulator 2 完成相应的可视化过程。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图2:Data Formulator 2允许用户添加不存在的数据概念,自行完成转换

借助 Data Threads 迭代可视化

当需要在现有图表基础上进行迭代时,用户可以直接在 Concept Encoding Shelf 上使用自然语言来传达迭代指令(或修改之前的数据映射)。例如,输入“仅展示前五名国家的可持续能源百分比”,Data Formulator 2 便能据此进一步处理数据,实现迭代,无需用户重新描述整个流程。这种方法显著减轻了用户的输入负担。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图3:Data Formulator 2 支持在现有图表基础上,通过自然语言指令进行迭代

若需追溯至先前的可视化作品进行重新分析,用户则可以利用 Data Threads 功能浏览之前的可视化历程,并选择合适的节点继续研究。例如,用户若想绘制一个柱状图来展示所有国家从2000年至2020年的排名变化,可以返回至“可持续能源百分比排名”的图表,并通过自然语言指令“比较不同国家2000至2020年间的排名变化”来指引 Data Formulator 2 基于历史数据进行深入分析,并生成所需的图表。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图4:Data Formulator 2 支持在过往图表基础上,通过自然语言指令进行迭代

大模型代码生成连接可视化与数据转化模块

Data Formulator 2 的设计策略是将数据转换与可视化过程分离开来,以提高大模型执行任务的准确度,并通过模型的代码生成能力将这两个阶段衔接。如图5所示,用户设定可视化目标后,Data Formulator 2 首先会根据图形界面中的输入实例化图形模板,并生成一段 Vega-Lite 代码。由于用户输入中包含了新的数据概念,Data Formulator 2需要对数据进行转换以创建可视化。为此,它会将用户的输入转换为大模型的提示词,指导模型生成 Python 代码以转换数据,满足 Vega-Lite 代码的需求。

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图5:Data Formulator 2 架构示意图

这才是ChatBI/Data Agent的正确思路:Data Formulator 2 解读

图 7:将用户提供的编码转换为 Vega-Lite 规范,并与 AI 转换后生成的数据结合

数据转换完成后,Data Formulator 2 会将处理后的数据与可视化代码结合,实现最终的可视化效果。在用户选择基于先前可视化进行迭代时,Data Formulator 2 则会利用原有代码生成新代码,从而减少代码生成过程中的不确定性,更有效地完成用户任务。

在 Data Formulator 2 的研究中,研究员们致力于融合图形化操作与 AI 的自然语言输入,希望帮助用户更有效地表达他们的可视化目标。但随着大模型的不断进步,如何使用户以简洁而精确的方式传达任务意图变得尤为关键,这也是研究员们未来探索的方向之一。

总结

可视化创作者在创作过程中通常是以迭代方式进行的,在数据转换与可视化设计之间不断交替。这个过程既需要熟练掌握工具,又需投入大量精力来管理多个版本的数据和图表。尽管已有一些 AI 驱动的工具旨在减少用户负担,但在支持迭代分析方面仍显不足:这些工具通常要求用户一次性通过自然语言输入完整表达意图。

Data Formulator 2:一个支持迭代式可视化创作的交互系统, 提供了一种多模态用户界面,允许用户通过 UI 与自然语言输入相结合的方式指定图表,从而无需冗长提示也能精确表达复杂设计意图。为帮助用户管理迭代方向,Data Formulator 2引入了 数据线程(data threads)的机制,使用户可以在不同设计版本之间导航、分支并复用先前成果。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动