金融界2025年8月8日消息,国家知识产权局信息显示,吉林省吉龙芯科技有限公司取得一项名为“一种建筑施工用挖掘铲斗及其方法”的专利,授权公告号CN12...
2025-08-08 0
2025 年 7 月,AI 大模型在代码生成与理解领域,特别是数据库 SQL 能力上的竞争日趋白热化。
本期 SCALE 评测我们迎来了备受瞩目的 Claude 3.5 Sonnet、Claude Sonnet 4 首次参评,同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是,我们针对数据库现代化迁移的真实痛点,对评测基准进行了重要升级,旨在更深度地考验模型在复杂、真实场景下的 SQL 处理能力。
本期核心看点:
为更精准地评估 AI 模型在企业级复杂数据库场景下的实用性,本月我们对 SQL 方言转换 维度的评测数据集进行了扩充和深化。
在数据库迁移的实际项目中,处理历史遗留的 大 SQL(通常指行数超百行、逻辑复杂的单条 SQL 语句)是一个常见且棘手的难题。我们发现,许多模型在面对此类长文本、高复杂度的转换任务时,容易出现上下文丢失、逻辑错乱、语法错误等问题。
评测目的:检验模型在处理超长、包含多层嵌套查询、复杂 JOIN 和临时表的 SQL 脚本时的转换准确性和逻辑保持能力。
在国产化替代和信创背景下,企业核心业务系统正加速从传统商业数据库向国产数据库迁移。此过程中,深度依赖于数据库过程化编程能力(如存储过程、函数)的复杂应用,其迁移的准确性和效率成为关键瓶颈。
评测目的:评测模型将传统商业数据库向国产数据库进行自动化转换的能力。这不仅是 SQL 的翻译,更涉及到变量声明、流程控制、异常处理等编程逻辑的跨方言迁移。
本期支持的转换路径:
从 Oracle 到 OceanBase(Oracle 模式)4.2.5。
基于以上更新的评测基准,本月的榜单呈现出一些值得关注的新变化。接下来,我们来揭晓本期榜单详细的评测结果与深度分析。
SQL 优化能力 Top 5
SQL 方言转换 Top 5
SQL 理解能力 Top 5
专题 1:Claude Sonnet 4 首秀评测
作为 Anthropic 的最新力作,Claude Sonnet 4 在本月的评测中展现了均衡但尚未登顶的实力。其在 SQL 优化、方言转换、SQL 理解 三大维度的得分分别为 70.9、77.1、79.3,位列总榜中上游。
总体来看,Claude Sonnet 4 是一位表现全面的均衡型选手,在 SQL 程式码的规范性和正确性上表现出色,但在性能优化的深度和处理极端复杂问题的能力上,与第一梯队模型相比仍存在一定差距。
专题 2:Gemini 2.5 正式版 vs 预览版
本次评测中,Gemini 2.5 Pro 正式版相较于其 06-05 预览版,展现了全面的能力提升,模型综合得分从 80 分提升至 82 分。这表明其在稳定性和综合 SQL 处理能力上都进行了有效优化。具体来看:
总体而言,Gemini 2.5 Pro 正式版 兑现了其从预览到稳定的承诺,特别是在 SQL 优化的深度和规范性上取得了突破性进展,使其成为一个更可靠、更高效的数据库开发辅助工具。
在 Oracle 到 OceanBase(Oracle 模式)4.2.5 这条关键迁移路径上,各模型表现分化明显,评测揭示了当前 AI 在处理真实世界复杂迁移场景时的核心挑战:
这种基于不准确 “知识” 的推理,导致了转换逻辑的根本性错误,是 AI 辅助代码迁移走向生产可用必须攻克的障碍。
为确保 SCALE 评测的及时性和前沿性,本月我们新增并升级了以下模型:
模型名称 | 备注 |
Claude 3.5 Sonnet | Anthropic 公司于 2024 年 6 月发布的最新模型 |
Claude Sonnet 4 thinking | Anthropic 公司于 2025 年 5 月发布的最新模型 |
模型名称 | 旧版本 | 新版本(本次测评使用) | |
Qwen3-235B-A22B-Thinking | 2024-04-29 | Qwen3-235B-A22B-Thinking-2507 | |
Qwen3-235B-A22B-Instruct | 2024-04-29 | Qwen3-235B-A22B-Instruct-2507 | |
Gemini 2.5 Pro | gemini-2.5-pro-preview-06-05 | gemini-2.5-pro(稳定版) | |
Gemini 2.5 Flash | gemini-2.5-pro-preview-06-05 | gemini-2.5-flash(稳定版) |
本月评测结果显示,随着评测维度的深化,模型之间的能力差异被进一步放大。特别是在新增的 大 SQL 转换 评测中,仅有少数顶级模型能较好地完成任务,这为后续模型迭代指明了关键方向。Claude Sonnet 4 的加入为市场带来了新的活力,而 Gemini 2.5系列(稳定版) 的表现也验证了其持续优化的成果。
SCALE 下期展望:
专家介绍
韩锋,CCIA(中国计算机协会)常务理事,前 Oracle ACE,腾讯 TVP,阿里云MVP,dbaplus 等多家社群联合创始人或专家团成员。著有《SQL优化最佳实践》、《数据库高效优化》、【韩锋频道】公众号主理人。
点评内容
韩峰:SCALE 榜单的发布,旨在建立起 “AI for SQL” 领域的标准化评测体系,这对于数据库行业具有非常正向意义。
通过科学测评维度(SQL 优化、方言翻译、深度理解)和严谨的加权评分(高难度、高价值任务权重更大),为市场提供了权威、客观的基准 “标尺”,使开发者、DBA 和技术决策者能清晰了解各模型的真实水平与相对优势,从而指导技术选型并消除市场混乱。
同时,公开透明的排行榜有力驱动模型提供商针对核心短板进行优化,尤其在高权重的复杂任务上持续投入,加速了关键技术的突破与模型能力的整体提升。对企业用户而言,标准评测显著降低了引入 AI 处理 SQL 的技术选型风险和试错成本,为项目落地提供了可靠决策依据。相信,这种标准化引领了整个 “AI for DB” 生态的发展方向,引导资源聚焦和工具开发,促进良性循环,加速 AI 与数据库的深度融合,释放智能化数据管理的巨大潜力。
感谢您的关注!我们致力于提供大语言模型(LLM)处理 SQL 的核心能力测评。如果您有任何建议或希望看到哪些模型的评测,欢迎随时与我们联系。
SCALE:为专业 SQL 任务,选专业 AI 模型。
✨ Github:https://github.com/actiontech/sql-llm-benchmark
官网:https://sql-llm-leaderboard.com/
相关文章
金融界2025年8月8日消息,国家知识产权局信息显示,吉林省吉龙芯科技有限公司取得一项名为“一种建筑施工用挖掘铲斗及其方法”的专利,授权公告号CN12...
2025-08-08 0
AI为金融行业带来怎样的改变?8月7日,在北京举行的“IDC中国数字金融论坛”上,来自金融行业和AI从业者围绕AI为金融行业带来的改变和AI应用进行深...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,深圳市酷开软件技术有限公司申请一项名为“基于并行处理的AI歌曲生成方法、装置及终端”的专利,公开...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,广州瑞希环保工程有限公司取得一项名为“一种双层式工业废气处理系统”的专利,授权公告号CN2231...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,西安顺腾制造有限公司取得一项名为“一种三点光源发生装置”的专利,授权公告号CN223206622...
2025-08-08 0
【8月8日优必选携五大人形机器人亮相2025世界机器人大会】8月8日,2025世界机器人大会在北京开幕,“人形机器人第一股”优必选携五大人形机器人参展...
2025-08-08 0
白交 发自 凹非寺量子位 | 公众号 QbitAI忘掉繁琐交互流程,也不用再蹲Veo 3了!现在分钟级高质量的AI创意大片,能够一键生成了。比如一张人...
2025-08-08 0
白木 刘奕君近日,美团在天津、上海、长沙、东莞等地启动的“不闯红灯安全激励活动”引发广泛关注。活动规定,骑手在配送过程中遵守交通规则、不闯红灯,每单可...
2025-08-08 0
发表评论