首页 抖音快讯文章正文

零基础也能搞懂AI 智能体

抖音快讯 2025年09月05日 11:59 2 admin

你看,现在到处都是“AI智能体”、“智能体能力”、“智能体工作流”这些词。但大多数解释要么太技术化,要么太基础。这个文章就是给我这样的人看的:你没有任何技术背景,但经常使用AI工具,并且想了解AI智能体,看看它对你有什么影响。

零基础也能搞懂AI 智能体

在这个文章里,我们会遵循一个简单的“1、2、3”学习路径,从你已经理解的概念(比如聊天机器人)开始,然后讲到AI工作流,最后是AI智能体。全程使用你现实生活中真会遇到的实际例子。相信我,那些你到处看到的吓人术语,比如RAG(检索增强生成)或ReAct(推理-行动框架),其实比你想象的要简单得多。让我们开始吧!

第一层:大语言模型 (LLMs)

像ChatGPT、Google Gemini和Claude这样流行的AI聊天机器人,都是构建在大语言模型(LLMs)之上的应用程序。它们非常擅长生成和编辑文本。简单来说:你(人类)提供一个输入,LLM根据其训练数据产生一个输出。

例如,如果我让ChatGPT起草一封请求咖啡聊天的邮件,我的提示(prompt)就是输入,而它生成的那封比现实中我可客气得多的邮件就是输出。到目前为止,很简单,对吧?

但如果我问ChatGPT:“我下一个咖啡聊天是什么时候?”即使不看回答,你我都知道ChatGPT会失败,因为它不知道这个信息——它无法访问我的日历。这突显了大语言模型的两个关键特性:

  1. 知识有限:尽管训练数据量巨大,但它们对专有信息(如个人信息或公司内部数据)了解有限。
  2. 被动响应:它们等待我们的提示,然后才做出回应。

记住这两点,我们继续。

第二层:AI工作流

零基础也能搞懂AI 智能体


让我们在刚才的例子基础上构建。如果我(人类)告诉LLM:“每次我问到个人日程时,先执行一个搜索查询,从我的Google日历获取数据,然后再回答。”

实现了这个逻辑后,下次我问:“我和Elon Husky的咖啡聊天是什么时候?”我就能得到正确答案,因为LLM会先去我的Google日历查找信息。

但问题来了:如果我的下一个跟进问题是“那天的天气会怎样?”LLM现在又回答不了了,因为我们告诉它的路径是“总是搜索我的Google日历”,而日历里没有天气信息。

这就是AI工作流的一个根本特性:它们只能遵循人类预设的路径(技术上,这个路径也叫“控制逻辑”)。

再扩展一下我的例子:如果我在工作流中添加更多步骤,允许LLM通过API访问天气,然后(为了好玩)再用文本转语音模型把答案读出来:“与Elon Husky会面当天的天气预报是晴天,有好男孩概率。”

关键点来了:无论我们添加多少步骤,这仍然只是一个AI工作流。即使有成千上万个步骤,只要是人类在做决策,就没有AI智能体的参与。

  • 专业建议:检索增强生成(RAG)是个常被提及的术语。简单说,RAG就是一个帮助AI模型在回答前先查找信息的流程(比如查日历或天气服务)。本质上,RAG就是一种AI工作流。(顺便提一句,我有个免费AI工具包,帮你掌握核心AI工具和工作流,链接在下方。)

真实案例:我参考了Helena Louu的精彩教程,用make.com创建了一个简单的AI工作流:

  1. 使用Google Sheets:我在一个Google表格里整理新闻文章的链接。
  2. 使用Perplexity:让它总结这些新闻文章。
  3. 使用Claude:根据我写的提示词,让Claude起草LinkedIn和Instagram帖子。
  4. 自动运行:设置每天早上8点自动执行。

你看,这就是个AI工作流,因为它严格遵循我预设的路径:第一步做这个,第二步做那个,第三步做这个,最后每天早上8点运行。

还有一点:如果我测试这个工作流,发现最终生成的LinkedIn帖子不够有趣(比如这里这个,嗯,不够搞笑,而我天生就超搞笑的,对吧?),我就得手动回去重写给Claude的提示词。这种试错迭代目前是由我(人类)完成的。记住这点。

第三层:AI智能体 继续用make.com的例子,分析一下我作为人类决策者一直在做的事情。我的目标是基于新闻文章创建社交媒体帖子,我需要做两件事:

  1. 推理/思考:思考最佳方法(先整理文章,再总结,最后写帖子)。
  2. 行动:使用工具(在Google Sheets里找链接、用Perplexity实时总结、用Claude写文案)。

最重要的一句话来了:为了让这个AI工作流变成AI智能体,必须发生一个巨大改变——由LLM取代我(人类决策者)的位置。

零基础也能搞懂AI 智能体

换句话说,AI智能体必须能够:

  • 推理:思考最高效的方法(“整理文章链接比复制粘贴全文到Word文档更合理吗?是的。”)。
  • 行动:通过工具做事(“用Excel?用户已经连了Google账户,用Google Sheets更好。”)。
  • 专业建议:正因如此,AI智能体最常见的配置是ReAct框架(Reason + Act,推理+行动)。听起来很简单吧?

AI智能体的第三个关键特性是迭代能力。还记得我要手动重写提示词让帖子更搞笑吗?人类可能需要重复几次才能满意。而AI智能体可以自主完成同样的迭代过程。

在我们的例子中,AI智能体会自主添加另一个LLM来评判自己的输出:“我起草了V1版LinkedIn帖子,怎么确保它好?哦,再加一步,让另一个LLM根据LinkedIn最佳实践来评判它。”然后重复这个过程直到达标,最终输出结果。

真实世界案例:Andrew(AI领域顶尖人物)创建了一个演示网站展示AI智能体如何工作。当我搜索关键词“skier”(滑雪者)时,后台的AI视觉智能体会:

  1. 推理:滑雪者看起来什么样?(比如,踩着滑雪板在雪上飞快移动的人?不确定。)
  2. 行动:查看视频片段,尝试识别它认为的滑雪者,给片段打上索引标签,然后返回给我们。

虽然这看起来可能不惊艳,但记住:是AI智能体完成了所有这些,而不是人类预先手动查看录像、识别滑雪者、添加“滑雪者、山、滑雪、雪”等标签。后台编程显然比前端看到的复杂得多,但这就是演示的意义——像我这样的普通用户只想要一个简单好用、无需理解后台的应用。

说到例子,我也在构建自己的基础AI智能体。在评论区告诉我,你希望我接下来做哪种AI智能体的教程?

总结一下:

  • 第一层(基础LLM):输入 → LLM → 输出。简单。
  • 第二层(AI工作流):输入 → 人类预设路径(可能涉及外部工具) → LLM → 输出。关键:人类编程路径让LLM遵循。
  • 第三层(AI智能体):输入目标 → LLM推理如何达成 → 行动使用工具 → 观察中间结果 → 决定是否需要迭代 → 达成目标的最终输出。关键:LLM是工作流中的决策者。

如果你觉得有帮助!祝你今天愉快


发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动