RAG · toB · 规范法条数据库
建景规规范问答助手
Architectural Norm RAG Assistant
AI 版设计规范"法条数据库"——用自然语言查规划 / 建筑 / 景观 / 消防 / 结构 / 市政 6 类规范,每条回答都附规范全称、标准号、条文号、原文摘引与 PDF 原文跳转,可追溯、不编造。

Customer Problem
客户问题
目标用户是中型设计院的规划师 / 建筑师——专业、低容错、日常要反复查规范条文做设计依据。规划 / 建筑 / 景观 / 消防 / 结构 / 市政 6 类规范散落在大量 PDF(89 部 / 10785 chunks)里,查阅困难:
- 关键词搜索难定位精确条款
- 跨规范查询要同时开多个 PDF 对照
- 强制性用语易混——"应 / 不应" vs "宜 / 不宜",一字之差含义天差
- 数字数据(服务半径 / 绿地率 / 容积率等)查得慢
而通用大模型查规范会一本正经地编出不存在的规范号、条文号和数字——对"像查法条一样严谨"的场景完全不可接受。产品的立身之本,就是把这件事用工程手段守住。
What I Did
我做了什么
我是项目的产品负责人与决策者,用 AI 辅助开发落地:从产品定义、技术选型、评测体系到红线治理全链路自己拍板,关键是能判断 AI 产出对不对、敢温柔挑战它的结论。
- 产品定义:圈定 6 类规范范围,定 4 条红线——不编造 / 引用精确(规范全称 + 标准号 + 条文号 + 跳转)/ 强条用语不可错 / 不给合规结论
- RAG pipeline:BGE-M3 召回 Top20 → BGE-Reranker-v2 重排 Top5 → 阈值过滤 → DeepSeek 流式生成;W3 加 multi-query 多路召回;0 命中触发"未在现行规范库中查询到"兜底
- 评测体系:7 维 LLM Judge(检索召回 / 精确条款 / 引用准确 / 原文用词★ / 数字精确★ / 边界识别 / 不编造★)+ 一票否决 veto
- 红线工程化:post_filter 剥离编造段、align_modal_verbs 校量词、align_numbers 校数字、dangling 监控越界引用号——红线靠拦截,不靠 prompt 祈祷
知识库构建是最难的一块:分块以"条"为基本单元、表格 / 公式独立成块、每块强制保留规范号 / 章节 / 条文号 / 页码元数据——因为"引用精确"是红线,元数据丢了就无法溯源。语料从 39 部扩到 89 部 / 6 域 / 10785 chunks,期间还做了系统性的 OCR 错字治理。
![实际问答 · 回答内联 [n] 引用角标,右栏结构化引用卡(规范全称 + 标准号 + 条文号 + 查看原文 PDF)](/_next/image?url=%2Fworks%2Fjianjinggui%2F02-citation.png&w=3840&q=75)
Key Decisions
关键决策
几条最硬的取舍:
- RAG 而非微调——可解释(引用回链的前提)、可维护(新增规范 = 1 次 embedding)、规范库规模远不到微调量级;"答案可溯源"是立身之本,直接排除纯生成方案
- 红线工程化——发现把 chunks 修干净后模型反而更敢编造,于是把红线做成可检测、可拦截的后处理,而不是只清数据、只调 prompt
- 评测先于优化——拒绝"改了感觉好了",所有改动过 7 维评测 + veto;"改了不涨 / 反而劣化"也如实记录
- 砍功能的纪律——用户最想要"上传方案查合规",但它直接撞"不下合规结论"的定位 + OCR 质量风险,果断降级为"列相关条文供自查",宁可少功能不破红线

Evaluation
评测,与对噪声的诚实
这个项目最值钱的不是代码,是一套"经得起方差检验"的评测方法论——也是我最想让人看到的部分。
- 综合质量分 86.6(MVP)→ 88.3 → 90.3(首次破 90)
- 单次 veto 38 → 27 → 13;原文用词维度 86.2% → 94%
- 但单次 LLM Judge 约一半是噪声——他用三次交集 + 方差分析才认定一个真问题,绝不信单次分数
- 评测集从 50 条扩到 171 条;评测集本身要先校准——他发现过评测工具自己的 bug 污染结论
一条更深的方法论:二值阈值指标(veto)对噪声极敏感、连续均值(综合分)稳——headline 用连续分,找真问题用多次交集。这种"对自己指标的诚实",正是判断 AI 能不能可靠嵌入产品的核心能力。

After
之后
核心闭环(能问 → 能答 → 能溯源)全通,已可本地 + 内网穿透(cloudflared)分享给他人体验。
- 功能:MVP(结构化引用卡 + PDF 原文跳转 + 8 类边界兜底 + SSE 流式)+ V2(多轮对话、智能追问推荐、对话历史本地持久化、规范现行状态显示、侧栏规范分类 + 多选限定只查某几部、右栏内嵌 PDF 阅读器定位被引页)
- 质量:7 维综合分 90.3、单次 veto 砍到 13、原文用词 94%;多轮升级后离线评测确认无回归
- 语料:89 部 / 6 域 / 10785 chunks
如实说明:均为离线评测 + 自测数据,没有真实用户流量 / 留存 / 转化;toB 签约、商业化验证未开始——是下一阶段的事。


Takeaways
沉淀:77 条洞察 + 可迁移方法论
全过程沉淀成 77 条 AIPM 产品洞察(已主题化成 8 大主题 + 面试金句),其中可迁移到任何 AI 产品的核心几条:
- 评测先于优化——没有可信评测,所有"优化"都是自我安慰
- 红线工程化——把"不编造 / 引用精确"做成可检测、可拦截的后处理,而非靠 prompt 祈祷
- 噪声意识 + 上游数据优先——区分真信号与判官噪声;数据质量是天花板,扩量前先体检数据
- 失败资产化、诚实交付——失败实验保留代码 + 默认关 flag + 文档解释;负面结论也是交付
这套方法论不绑定规范领域,是判断"AI 能力能否可靠嵌入产品"的通用工具——也是这个项目相对"只会调 prompt"的最大差异。