← Back to Jiaqi He

增长 Data Agent 产品设计

作者:何佳琦 · 2026.06

【注】本文梳理 data agent 产品的设计思路,聚焦产品形态、核心能力框架与关键技术判断,不涉及太细节的实施方案。撰写过程中,结合个人数据科学领域的学习和实践经验,并借鉴了 OpenAI、Meta 等科技大厂团队推进 data agent 产品落地的经验,追求以科学、严谨、贴近前沿的方式做事。

第一性原理:为 data agent 造一个"验算器"

过去两年 coding agent 突飞猛进,出现了 claude code 这样颠覆性的产品形态,而 data agent 始终停留在"高级辅助"的水平。这并不是因为数据分析比写代码更难,而是因为:

写代码这件事自带验算器——编译器、单元测试、运行结果会立刻告诉 agent"你错了"。agent 能自己试错、自己发现错误、自己修正,这个闭环正是 RL 与 agent loop 能够起飞的前提。

而 data agent 缺少这个闭环—— SQL 跑通了不代表算对了业务口径;一份归因结论看起来很合理,也可能完全是错的。没有现成的"对错信号",agent 就无法自我纠正,产品也就无法持续进化。

严格说,coding agent 的验算器也只覆盖语法与功能正确,并不保证"做对了需求"——它一样会写出测试全过却逻辑错的代码。但它至少白拿了编译、运行、测试这层廉价的对错信号;而 data agent 连这一层都没有,每一步都得我们人为去造。

我们做的每一项设计,本质上都在回答同一个问题:data agent 天生没有评估标准,我们如何为它人为去构建?

能力Evals
SQL 语法 / 执行评估取数造验算器(可自动验证)
业务结果正确性评估分析造验算器(最难,也是护城河)
Human-in-the-loop 追问与确认在没有自动验算器时,用人当验算器
用户反馈闭环 + golden 数据集把一次次验算沉淀为可复用的对错信号

一、产品定位与核心功能

产品价值

业务方:自助取数与分析,每位业务 Owner 都能独立完成数据查询与诊断,无需等待排期、无需会写 SQL,决策提速从几天到几分钟。

数分 / 数科:从重复性 SQL 调试中解放,升级为洞察生产者——精力聚焦于定义指标、验证假设和产出高质量数据洞察,而非被临时取数请求消耗。

核心功能

Data Agent 服务于真实的业务场景,核心是把"业务方的自然语言问题"转化为"可信赖的数据洞察"。四大核心功能:

  1. 智能取数与可视化
    将用户自然语言提问转化为精准的查询 SQL,并自动选择最优可视化图表,直观呈现数据洞察。

    业务原型问题:「帮我查过去一段时间某个区域的销售额」

  2. 数据分析
    依托 LLM 推理能力、算法库及数据科学领域标准方法论,完成指标归因分析、异常检测、预测等任务,产出可落地的洞察。

    业务原型问题:「为什么某客户/某地区销售额下滑这么多?」

  3. 专家级深度对话分析
    面对开放式、需多步探索的问题,通过多轮对话逐层深挖根因,产出专家级分析报告。过程中借助 human-in-the-loop 主动追问、澄清模糊意图,先与用户对齐分析思路再执行——这一步本质就是在用人补足缺失的验算闭环

    业务原型问题:「怎么优化开发信的内容,可以提高客户的邮件打开率?」

  4. 仪表盘导航
    根据需求自动生成 Dashboard,实现高频业务场景的数据化监控。解决"找 BI 排期做看板"的痛点,响应更快。

    业务原型问题:「做一个客户分层运营看板,帮我追踪各层级的关键指标变化,我要评估上季度运营策略带来了多少实际增量」

产品 Demo 演示

帮我看看过去一年北美的升降桌销售情况?
思考过程 已完成 · 6 步推理
意图识别解析用户问题:查询北美地区 · 升降桌品类 · 过去 12 个月 · 销售概况
匹配数据表命中 orders 表(置信度 96%),关联 region、product_category 维度
口径确认sales_date 对应下单日期,revenue_usd 为实际成交金额(已排除退款)
生成 SQL按月聚合,含同比计算,过滤条件:region = 'North America' & category = '升降桌'
结果校验返回 12 行 · 无空值 · 总金额 $3,314,580 · 同比字段计算正常
洞察生成识别 Q4 增长峰值与加拿大市场高增速,生成文字摘要

数据洞察

2025 年北美升降桌销售额共计 $3,314,580,同比增长 +23.4%。Q4 表现最突出,占全年销售额的 33%;美国市场贡献 78%,加拿大市场增速最快(YoY +41%)。整体呈稳健增长趋势,建议重点关注 Q1 同比增速偏低的原因。

月份销售额(USD)订单量客单价同比
2025-01$198,420312$636+8.2%
2025-02$215,630338$638+12.4%
2025-03$287,450451$638+18.7%
2025-04$268,910421$639+21.3%
2025-05$301,240472$638+24.1%
2025-06$245,780385$639+19.8%
2025-07$198,650311$639+15.2%
2025-08$234,120367$638+22.6%
2025-09$267,340419$638+25.4%
2025-10$312,450489$639+28.7%
2025-11$398,760625$638+32.1%
2025-12$385,830604$639+29.8%
全年合计$3,314,5805,194$638+23.4%
400k 300k 200k 100k 0 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Q1–Q3 Q4(高亮)
WITH monthly AS (
  SELECT
    DATE_TRUNC('month', order_date)  AS 月份,
    SUM(revenue_usd)                 AS 销售额,   -- revenue_usd 口径为退款后净额
    COUNT(order_id)                  AS 订单量,
    ROUND(AVG(revenue_usd), 0)       AS 客单价
  FROM   orders
  WHERE  region           = 'North America'
    AND  product_category = '升降桌'
    AND  order_date BETWEEN '2024-01-01' AND '2025-12-31'   -- 多取一年,供同比回看
  GROUP  BY 1
)
SELECT
  月份, 销售额, 订单量, 客单价,
  ROUND(
    ( 销售额 - LAG(销售额, 12) OVER (ORDER BY 月份) )
    / LAG(销售额, 12) OVER (ORDER BY 月份) * 100
  , 1)                               AS 同比增长
FROM   monthly
WHERE  月份 >= DATE '2025-01-01'                              -- 仅输出 2025
ORDER  BY 月份;

该能力规划中,详见第六章路线图 …

该能力规划中,详见第六章路线图 …

该能力规划中,详见第六章路线图 …

二、产品整体架构

整体采用分层架构,自底向上:底座 → 基础能力 → 分析能力 → 编排层 → 产品形态。

产品
Insights
Chatbot
智能取数与可视化
数据分析
智能追问与多轮对话
仪表盘导航
编排层
Workflow
Agent
原子功能
意图识别
关键词提取
智能选表
Text2SQL
SQL 评估
数据可视化
时序预测
异常检测
漏斗分析
归因分析
分析能力
模型底座
通用推理 / Text2SQL / 分析
GPT
Claude
Gemini
DeepSeek
Qwen 等
专用预测模型
XGBoost
Prophet
LSTM 等
语义检索模型
text-embedding-3
BGE 等
Hive
指标定义
数据仓库
数据目录
数据底座

2.1 模型底座

根据任务特性选择合适的模型,不追求单一模型通吃:

  • 通用推理 / Text2SQL / 分析:GPT、Claude、Gemini、DeepSeek、Qwen 等
  • 专用预测模型:XGBoost、Prophet、LSTM 等
  • 语义检索模型:text-embedding-3、BGE 等,用于数据目录召回与上下文组装

2.2 数据底座

数据仓库、指标定义、数据目录(详见核心技术实践 4.2)。

2.3 基础能力(原子功能)

意图识别、关键词提取、智能选表、Text2SQL、SQL 评估、数据可视化。

2.4 分析能力

漏斗分析、异常预警、时序预测、归因分析。其中归因分析较复杂,按复杂度从低到高拆为三类

类型方法适用场景
确定性判断(指标拆解法)横向拆解 + 纵向下钻适用于指标之间有明确数学逻辑关系的场景,追求贡献度可量化、可相加
可能性判断(建模分析法)XGBoost + SHAP当指标间缺乏直接公式联系,或因素过多、关系复杂时使用。
因果推断A/B Test(实验)、DID / PSM(准实验)明确"某业务动作是否导致某结果",如评估新策略效果

落地建议:确定性判断在 V2 落地(成本低、结论可信),可能性判断与因果推断在 V3 接入

因果推断——A/B Test 需搭建实验平台(事前随机分流);DID / PSM 为准实验,纯算法实现,依赖历史观察数据,无需实验平台,但对数据条件与假设(如平行趋势、可观测混淆)要求较高

2.5 编排层:Workflow 与 Agent 的边界

这是工程上最关键的决策点。两者融合使用,判断标准是"问题路径是否可预定义"

WorkflowAgent
适用高频、路径确定的问题长尾、需多步探索的问题
例子标准取数、固定口径的异动归因开放式根因分析、多轮追问
优点稳定、可控、可评估、便宜灵活、覆盖长尾
代价覆盖面有限慢、贵、结果方差大

原则:能用 Workflow 解决的,绝不交给 Agent。 Workflow 路径确定,更容易造验算器;Agent 是兜底,承接 Workflow 覆盖不到的长尾。

三、前沿科技大厂落地 Data Agent 产品经验总结

OpenAI:Inside Our In-House Data Agent

OpenAI 内部 Data Agent 服务全公司,覆盖 70,000+ 数据集、600PB 规模,由此衍生出一套在大规模下维持准确性的工程实践。

六层上下文架构:如何让 Agent"读懂"数据

在这个规模下,靠人工标注静态数据目录根本维持不住。OpenAI 的核心工程贡献在于构建了一套六层自动化上下文组装系统,让 agent 在查询时能实时拼出足够准确的数据背景:

6运行时兜底
5对话记忆
4机构知识
3代码语义增强
2人工标注
1表使用元数据

从底层批量自动化数据,到顶层在线实时兜底——自动化程度递减、实时性递增(精准与成本不随层级单调变化,如人工标注最贵也最精准)

内容关键细节
表使用元数据Schema 结构、数据血缘、历史查询,按可信度排序三类信号合并为一层;历史查询按可信度分级——看板 / 生产 SQL 权重高,一次性探索查询权重低甚至有害
人工标注owner 手写的业务含义与"坑"无法自动化的部分靠人补;是最贵但最精准的一层
代码语义增强(Codex Enrichment)夜间批跑读取 pipeline 代码,推断表粒度、join key、字段口径代码比文档更诚实:字段名可能骗人,建表逻辑不会。这是人工标注覆盖不到时的自动兜底
机构知识Slack、Wiki、设计文档带访问控制——不同角色读到不同上下文,敏感讨论不会越权流出
对话记忆历次对话中的纠错与口径修正全局 / 个人两种范围;下次对话自动复用,无需重新解释口径
运行时兜底离线上下文缺失或过时时,实时查数仓补齐最慢但最准确;作为离线层的安全网

核心判断:OpenAI 的 agent 架构其实相当克制——单 LLM + 运行时 + 上下文组装 + 精简工具集(工具从初期约 40 个砍到 13 个精选)。它能在 70k 数据集、600PB 规模下成立,靠的不是复杂的 agent 编排,而是底下那套统一扎实的上下文与数据底座。

AI Evals 体系:快速迭代而不失信任

OpenAI 把"评估"做成发布流程的硬门禁,而非上线后的事后验收。每次模型或 prompt 变更,必须通过三类测试才允许发布:

类型验证内容说明
Correctness对错golden test set 比对,SQL 结果是否符合预期
Bias口径 / 样本偏差结果是否因选表或过滤条件错误而系统性偏移
Leakage越权访问agent 是否被诱导查询了用户无权访问的数据
  • golden test set 从真实线上问题采样、由业务专家标注,每次迭代必须跑回归——防止"改好一个、改坏三个"
  • 模型版本、指标定义、数据血缘全部打快照,出问题可追溯可回滚
  • 关键原则:"不是测得越多越好,而是测的方向要对"——三类风险覆盖是最小必要集合

智能体安全性与鉴权

  • 权限与数据目录绑定:用户能访问哪些表,agent 生成的 SQL 就只能查哪些表
  • 机构知识按访问控制分级嵌入:不同角色看到的上下文不同,敏感的内部讨论不会流出
  • 查询日志全量记录:每次 agent 操作可追溯到发起人和具体 SQL,满足合规审计要求
  • 数据字段脱敏与 SQL 限制:敏感字段在数据目录中标注,查询时自动屏蔽或脱敏

Meta:Inside Meta's Home-Grown AI Analytics Agent

Meta 的 Analytics Agent 是一个从内部需求出发、完全自研的数据分析智能体,最终成为全公司最高频使用的内部工具之一。

Analytics Agent 是如何工作的

核心设计哲学:利用上下文丰富用户提示词(数据发现 + 背景收集),再提供正确的推理逻辑(迭代推理循环)。答案呈现时,把透明度作为信任的基石。

Step 1 — 发现数据与收集上下文

用户的问题往往是模糊的,数据则极其复杂(成百上千张表、互相嵌套的指标定义)。Analytics Agent 的第一步不是直接生成 SQL,而是先把问题说清楚

  • 语义搜索数据目录,自动找到相关表和指标
  • 拉取该领域的 Cookbook,了解这个业务域的惯用分析套路
  • 查找匹配的 Recipe,看有没有现成的分析 SOP 可复用
  • 解析 Ingredient 中的字段口径(如"l7_active = 近 7 天活跃且排除流失账号")

Step 2 — 迭代推理循环

生成计划 → 执行(SQL / Python)→ 验证结果 → 发现问题 → 修正 → 再执行

每一步执行结果都会反馈给下一步用于校正,agent 能在循环中自我纠错。遇到数据异常、逻辑矛盾或结果超出常识范围时,会主动触发澄清追问或重试。

Step 3 — 全透明原则(非确定性 LLM 的最务实解法)

"在分析场景里,一个被自信地给出的错误数字,比没有数字更糟糕。"

每一个呈现给用户的数据点,背后生成它的 SQL 都被放在最显眼的位置。用户随时可以核对口径,把验算的能力部分还给用户。

三层知识系统:Cookbook / Recipe / Ingredient

层级类比内容由谁维护
Cookbook领域入口某业务域的分析入口,打包该域的惯用方法、背景知识、参考专家业务 / 数据负责人
Recipe分析 SOP标准分析流程,如"做留存分析应当这样拆解""归因时需要控制哪些混淆变量"数据分析师
Ingredient语义原子字段定义、指标口径、历史纠错记录,如"l7_active = 近 7 天有行为且排除已流失账号"数据工程

知识由专家录入一次,所有对话复用。这比单纯堆 RAG 文档更有结构,更重要的是:它让业务方从使用者变成共建者

核心启示与落地数据

Meta 在正式立项前,先分析了一批历史业务问题,发现其中 88% 的分析类问题在上下文充分的情况下 LLM 能稳定回答。这个数字是项目成立的硬依据——证明了问题是"有界的"。

指标数字
上线 6 个月内周活用户占比(数据科学家/工程师)77%
非数据岗采用率 vs 数据岗5 倍(数据工作真正民主化)
社区共建 Recipe 数量4,500+
Recipe 累计使用次数150,000+
  1. 速度优于完美:"最大的风险不是发得太早,而是发得太晚"
  2. 把早期用户当共建者,而非小白鼠:让用户能录入 Recipe / Ingredient,贡献知识资产
  3. Sanity Check 是性价比最高的自动验算器:如"WAU 不可能 > 80 亿""环比波动 > 500% 需复核"

四、核心技术实践

Agent 内部流转流程

当用户提出问题时,Agent 内部按以下流程流转:

图例 · LLM 参与 LLM 推理 混合(部分 LLM) embedding / 程序 用户问题 Intent Understanding 意图识别 · 类型路由 · Query 改写 问题模糊 → 追问澄清 Initial Context Assembly 预装一次 system prompt · permissions · memory 数据目录概述 · 业务知识 只给"哪里有线索",不给具体数据; 按需深入,类似Skill渐进式披露设计理念 AGENT LOOP LLM 主导 · RAG 增强 Plan 拆解问题 · 选指标 · 圈定候选表 · 设计方案 Retrieve Context 动态 · 按需 候选表完整字段 · 取值样例 · 血缘 · 相似历史查询 Execute 生成 SQL/Python → MCP 调数仓 → 取结果 Observe & Validate 确定性〔可信〕:执行成功 · 结果非空 · 权限 · 粒度 启发式〔LLM 自审〕:语义 · 业务规则(不在 loop 内闭环) Reflect 充分→收尾 · 需补充→继续 · 有误→纠错 未完成 (纠错/补充) 分析完成 Synthesize Findings 结论 · 假设 · 查询依据 · caveats · 可视化 返回答案(数据洞察 + 可视化)

注: 确定性校验可在 loop 内自动闭环(执行成功、结果非空、权限、粒度); 业务语义正确性无法在 loop 内自证,需结合第五章评估体系(golden set + 反馈闭环)持续校准,并通过透明化(每个数字附来源 SQL)让用户兜底。

综上,从工作流拆解来看,做好 data agent 核心需要解决以下几点:

  1. 如何让 LLM 理解业务问题,收集上下文——意图识别、Query 改写、Initial Context Assembly 的工程质量,决定了 agent 从第一步就能走对方向。
  2. 如何保证 LLM 选对表与字段——数据目录的完整性与元数据质量,是 Text2SQL 准确率的天花板,也是动态检索能否命中的基础。
  3. 如何构建好的迭代推理循环,让 agent 自主纠错——Plan → Retrieve → Execute → Observe & Validate → Reflect 的闭环设计,是 agent 能否从"高级辅助"走向"自主分析"的关键。
  4. 保证产品的透明化——每个数字附上来源 SQL,把验算能力还给用户,是 AI 分析产品建立信任的最务实路径。
  5. 设计好 AI Evals,科学进行产品迭代——评估体系是 data agent 的发动机;没有 Evals,agent 的每次升级都是在"裸奔"。

4.1 如何让 LLM 理解业务问题

让 LLM 从"懂语言"到"懂业务",分四步:

1)传递核心业务知识

提炼业务核心概念(如外销业务获客流程、复购逻辑等),整理成千余字的业务概述,作为 System Prompt 注入,提供基本业务背景。

2)引入业务术语与知识库

  • 高频术语与黑话:直接写入 System Prompt;
  • 全量术语、指标定义等复杂知识资产:存入向量数据库,通过 RAG 动态检索,辅助模型理解细节问题。

3)用户意图识别

将业务问题分为四类,对应四大功能:智能取数与可视化、数据分析、专家级深度对话分析、仪表盘导航。把常见业务问题整理进向量库,用 RAG 提升意图识别准确率,再路由到相应模块。

4)关键词提取与 Query 改写

意图识别后做结构化抽取,精准识别维度、查询指标、过滤条件、时间区间、时区等关键词。同时把业务知识嵌入知识库,解决别名/同义问题(如本业务中"收入"与"销售额"同义)。最后结合上下文将口语化提问改写为结构清晰、逻辑严谨的查询/分析请求。

让专家"教" agent,而非只是"用" agent(借鉴 Meta)。 把领域知识沉淀为可复用资产(三层结构详见第三章 Meta),由专家录入一次、所有对话复用——agent 从第一个问题起就像领域专家,并随每次对话变得更好。这比单纯堆 RAG 文档更结构化,也让业务方从使用者变成共建者。

4.2 智能数据查询:数据目录与元数据管理

建立数据目录和元数据管理系统,对数仓统一梳理标注。这是智能选表与 Text2SQL 准确率的地基,涵盖:

  1. 数仓概述:分层架构、数据来源、表的种类、业务场景等高层描述。
  2. 表的详细说明:每张表的功能及在数据产品中的应用场景。
  3. 表的选择逻辑:明确适用范围与不适用场景,避免误用导致分析偏差。
  4. 字段详情:字段类型、是维度还是指标、含义、取值范围;维度字段标注关联维度表。
    • 衍生指标:解释计算逻辑与业务含义(如"新客户 = 统计期内首次下单的客户")。
  5. 字段唯一性保障:梳理跨表同名/同义字段,明确语义一致性,特殊情况详细标注。
  6. SQL 限制条件:列出查询限制,如敏感字段访问限制、特定业务逻辑下的检索约束,确保合规与准确。

如何把目录"喂"得更准

仅靠人工标注的静态目录会很快过时、覆盖不全。第三章 OpenAI 的六层上下文给了参考方法——靠多层信号自动组装,而非全靠人写。

真正的工程难点在"上下文组装"这层基础设施,而非 agent 架构本身——OpenAI 的 agent 架构其实很"朴素"(单 LLM + 运行时 + 上下文组装 + 精简工具集),强大的能力来自统一扎实的数据底座。

为什么不直接用 Markdown? 表少、业务知识较少时完全可以用 Markdown 静态注入,类似索引文件的方式构建知识库,简单有效。随着数据源扩展、表数量增多,全量注入成本急剧上升,且"客单价"→ avg_revenue_usd 这类语义映射靠关键词匹配会直接 miss。Embedding 动态召回只把语义最相关的少量表元数据送给 LLM,精准、省 token、降噪。

五、AI Evals(产品的护城河)

为什么评估对 data agent 格外重要? 回到第一性原理:LLM 本质是自回归地做 next-token prediction,输出有概率性;data agent 又缺少天然验算器。因此评估不是上线后的验收环节,而是产品能否自我进化的发动机。

AI Evals 本质就是数科同学 Measurement 能力的一次迁移,不过分析对象从传统互联网产品变成了 LLM 与 Agent 工作流,分析任务则是:LLM 是否遵循指令、工具调用是否准确、以及 Agent 整体产出是否达到业务分析质量标准

5.1 北极星与评估指标体系

先定义"什么叫好",否则一切优化都没有baseline:

层面核心指标说明
取数SQL 执行成功率、结果准确率依赖 golden dataset
分析洞察准确率、业务采纳率采纳率是最贴近价值的北极星
体验多轮澄清成功率、首次响应满意度衡量交互质量
工程P50/P95 延迟、单次成本保障可用性与规模化可行性;P95 超 30s 需流式输出兜底,单次成本决定全员铺开的账单上限

5.2 取数评估:三层验算器

  1. 语法层:SQL 静态语法审查(可自动,零成本)。
  2. 执行层:在沙箱/受限库实际执行,验证可跑通、无超时(可自动)。
  3. 结果正确性层:维护 golden dataset(业务专家标注的「问题→正确 SQL/结果」对),新生成结果与之比对。
    • golden dataset 的建设是一项持续工程:从线上真实问题中采样、由业务专家标注、纳入回归测试,每次模型/prompt 迭代跑一遍,防止"改好一个、改坏三个"

加一层"业务常识校验"(借鉴 Meta)。 在结果呈现给用户前,用独立的规则/AI 做体检,例如"WAU 不可能 > 80 亿""环比波动 > 500% 需复核"。这类轻量 sanity check 成本极低,却能拦住大量离谱结果,是自动验算器里性价比最高的一层。

5.3 分析评估:如何评"洞察质量"这种主观的东西

这是最难的部分(缺乏标准答案),采用三管齐下:

  1. LLM-as-judge:用更强模型按预设 rubric(逻辑是否自洽、是否引用了正确数据、结论是否回答了问题)打分,规模化、低成本,但需先与人工标注校准一致性。
  2. 人工专家标注:抽样由数科/数分同事评估洞察的正确性与有用性,作为 LLM-judge 的"金标准"与校准锚点。
  3. 业务采纳率(线上):用户是否采纳了这条洞察、是否基于它做了决策——这是最诚实的评估信号

5.4 在线评估与反馈闭环

把线上每一次交互变成"人造验算信号":

  • 显式反馈:👍/👎、"这个口径不对"等;
  • 隐式反馈:用户是否追问、是否复制 SQL、是否导出报告;
  • 闭环:反馈 → 归因(是意图识别错?选表错?SQL 错?)→ 沉淀进 golden 集 / 优化 prompt / 补充数据目录 → 回归验证。

这正是开篇第一性原理那个缺失闭环的最终落地:我们用评估体系 + 反馈闭环,为 data agent 人工补上了 coding agent 天生就有的验算器。

5.5 发布门禁与版本管理(借鉴 OpenAI)

把评估固化进发布流程,而非靠人主观经验:

  • 测试集覆盖三类风险:correctness(对错)、bias(口径/样本偏差)、leakage(越权/数据泄露);
  • 回归门禁:每次模型或 prompt 变更,必须跑通测试集才能发布;
  • 版本化与血缘快照:模型版本、指标定义、数据血缘都打快照,出问题可追溯、可回滚。

六、落地路线图(分阶段规划)

阶段核心目标分析能力数据源
V1 取数可信能取数、取准数智能取数 + 可视化 + 失败兜底外销销售域数据
V2 诊断分析能回答「为什么」漏斗分析、归因分析(异动检测 + 指标多维拆解)外销销售域数据、邮件数据
V3 深度因果能回答「做什么有效」机器学习归因(XGBoost+SHAP)、因果推断(DID/PSM)、Dashboard 自动生成、多轮根因对话同 V2

V2 典型分析链路:

📊 漏斗分析(纵向,找流失节点):营销触达 → 客户首次回复 → 客户询盘深化 → 送样 → 正式成交

🔍 归因分析(解释波动):某月成交额下滑 → 异动检测 → 拆解到区域 / 品类 / 客户层级 → 定位原因

贯穿全程的原则:先有评估、再有功能。每上一个新能力,先想清楚"它的验算器是什么"——这是 data agent 从"辅助"走向"可信赖"的唯一路径。

几条来自 Meta / OpenAI 的落地心法:

  • 先用数据证明"可处理性",再立项。 别从"AI 大有可为"的愿景出发,要从"这个范围内的问题 LLM 确实能稳定做对"的事实出发(如 Meta 先用数据证明问题有界,详见第三章)。
  • 速度优于完美。 先发粗糙可用的版本快速迭代——"最大的风险不是发得太早,而是发得太晚"。
  • 把早期用户当共建者,而非小白鼠。 让用户能录入并贡献知识资产,是规模化的关键——Meta 的采用率与社区共建数据(见第三章)就是这条路径跑通的证据。