Paper Digest: BIS for NL2SQL
BIS: NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios
💡 填补了学术界与工业界在 Data Agents 评测上的鸿沟,提出了首个专门针对真实企业级商业智能(BI)场景的自然语言转 SQL(NL2SQL)服务评估基准。
🚨 1. The Problem: 实验室里的“温室模型”
大语言模型(LLM)作为数据分析 Agent 正在重塑企业的数据交互方式。然而,目前学术界主流的 NL2SQL 评测基准(如 Spider 等)大多基于清晰的、学术化的精简数据库。
核心痛点:无法应对真实商业的“脏乱差”
真实的商业智能(BI)场景面临着极度的复杂性:表结构极其庞大且命名晦涩、业务逻辑常常隐藏在模糊的用户提问中(如“帮我查一下上个季度的核心爆款”)、且对 SQL 执行结果的准确率有金融级的严苛要求。在学术基准上刷榜的 SOTA 模型,一到真实 BI 场景往往错误百出。
真实的商业智能(BI)场景面临着极度的复杂性:表结构极其庞大且命名晦涩、业务逻辑常常隐藏在模糊的用户提问中(如“帮我查一下上个季度的核心爆款”)、且对 SQL 执行结果的准确率有金融级的严苛要求。在学术基准上刷榜的 SOTA 模型,一到真实 BI 场景往往错误百出。
🚀 2. The Breakthrough: BIS 工业级评测体系
我们构建了 BIS (Business Intelligence Scenarios) Benchmark,充当检验 LLM 数据智能能力的“照妖镜”:
- 真实业务 Schema 映射: 深度还原企业级数据仓库的复杂拓扑,包含深度表关联(Join)、复杂的嵌套子查询以及特定行业的业务约束。
- 多维度能力诊断: 不仅仅评估最终生成的 SQL 是否能跑通,还深入评估模型在 Schema 链接(Schema Linking)、业务常识推理(Domain Reasoning)以及抗拒模糊意图干扰等维度的细粒度能力。
📈 3. Key Results: 业务与实验价值
校准数据 Agent 的演进方向:
BIS 暴露了当前开源与闭源 LLM 在真实复杂 BI 场景中的显著短板。该基准为下一代基于 RAG 或 Agentic Workflow 的企业级 NL2SQL 架构优化提供了最权威、最贴近实战的指南针。
BIS 暴露了当前开源与闭源 LLM 在真实复杂 BI 场景中的显著短板。该基准为下一代基于 RAG 或 Agentic Workflow 的企业级 NL2SQL 架构优化提供了最权威、最贴近实战的指南针。