Paper Digest: BIS for NL2SQL

BIS: NL2SQL Service Evaluation Benchmark for Business Intelligence Scenarios

ICSOC 2025

Authors: B. Caglayan, ..., Jiandong Ding, et al.

💡 填补了学术界与工业界在 Data Agents 评测上的鸿沟，提出了首个专门针对真实企业级商业智能（BI）场景的自然语言转 SQL（NL2SQL）服务评估基准。

🚨 1. The Problem: 实验室里的“温室模型”

大语言模型（LLM）作为数据分析 Agent 正在重塑企业的数据交互方式。然而，目前学术界主流的 NL2SQL 评测基准（如 Spider 等）大多基于清晰的、学术化的精简数据库。

核心痛点：无法应对真实商业的“脏乱差”
真实的商业智能（BI）场景面临着极度的复杂性：表结构极其庞大且命名晦涩、业务逻辑常常隐藏在模糊的用户提问中（如“帮我查一下上个季度的核心爆款”）、且对 SQL 执行结果的准确率有金融级的严苛要求。在学术基准上刷榜的 SOTA 模型，一到真实 BI 场景往往错误百出。

🚀 2. The Breakthrough: BIS 工业级评测体系

我们构建了 BIS (Business Intelligence Scenarios) Benchmark，充当检验 LLM 数据智能能力的“照妖镜”：

真实业务 Schema 映射: 深度还原企业级数据仓库的复杂拓扑，包含深度表关联（Join）、复杂的嵌套子查询以及特定行业的业务约束。
多维度能力诊断: 不仅仅评估最终生成的 SQL 是否能跑通，还深入评估模型在 Schema 链接（Schema Linking）、业务常识推理（Domain Reasoning）以及抗拒模糊意图干扰等维度的细粒度能力。

📈 3. Key Results: 业务与实验价值

校准数据 Agent 的演进方向：
BIS 暴露了当前开源与闭源 LLM 在真实复杂 BI 场景中的显著短板。该基准为下一代基于 RAG 或 Agentic Workflow 的企业级 NL2SQL 架构优化提供了最权威、最贴近实战的指南针。

Jiandong Ding (丁建栋)