RAG · toB · 规范法条数据库

建景规规范问答助手

Architectural Norm RAG Assistant

AI 版设计规范"法条数据库"——用自然语言查规划 / 建筑 / 景观 / 消防 / 结构 / 市政 6 类规范，每条回答都附规范全称、标准号、条文号、原文摘引与 PDF 原文跳转，可追溯、不编造。

Customer Problem

客户问题

目标用户是中型设计院的规划师 / 建筑师——专业、低容错、日常要反复查规范条文做设计依据。规划 / 建筑 / 景观 / 消防 / 结构 / 市政 6 类规范散落在大量 PDF（89 部 / 10785 chunks）里，查阅困难：

而通用大模型查规范会一本正经地编出不存在的规范号、条文号和数字——对"像查法条一样严谨"的场景完全不可接受。产品的立身之本，就是把这件事用工程手段守住。

What I Did

我是项目的产品负责人与决策者，用 AI 辅助开发落地：从产品定义、技术选型、评测体系到红线治理全链路自己拍板，关键是能判断 AI 产出对不对、敢温柔挑战它的结论。

产品定义：圈定 6 类规范范围，定 4 条红线——不编造 / 引用精确（规范全称 + 标准号 + 条文号 + 跳转）/ 强条用语不可错 / 不给合规结论
RAG pipeline：BGE-M3 召回 Top20 → BGE-Reranker-v2 重排 Top5 → 阈值过滤 → DeepSeek 流式生成；W3 加 multi-query 多路召回；0 命中触发"未在现行规范库中查询到"兜底
评测体系：7 维 LLM Judge（检索召回 / 精确条款 / 引用准确 / 原文用词★ / 数字精确★ / 边界识别 / 不编造★）+ 一票否决 veto
红线工程化：post_filter 剥离编造段、align_modal_verbs 校量词、align_numbers 校数字、dangling 监控越界引用号——红线靠拦截，不靠 prompt 祈祷

知识库构建是最难的一块：分块以"条"为基本单元、表格 / 公式独立成块、每块强制保留规范号 / 章节 / 条文号 / 页码元数据——因为"引用精确"是红线，元数据丢了就无法溯源。语料从 39 部扩到 89 部 / 6 域 / 10785 chunks，期间还做了系统性的 OCR 错字治理。

Key Decisions

几条最硬的取舍：

RAG 而非微调——可解释（引用回链的前提）、可维护（新增规范 = 1 次 embedding）、规范库规模远不到微调量级；"答案可溯源"是立身之本，直接排除纯生成方案
红线工程化——发现把 chunks 修干净后模型反而更敢编造，于是把红线做成可检测、可拦截的后处理，而不是只清数据、只调 prompt
评测先于优化——拒绝"改了感觉好了"，所有改动过 7 维评测 + veto；"改了不涨 / 反而劣化"也如实记录
砍功能的纪律——用户最想要"上传方案查合规"，但它直接撞"不下合规结论"的定位 + OCR 质量风险，果断降级为"列相关条文供自查"，宁可少功能不破红线

Evaluation

这个项目最值钱的不是代码，是一套"经得起方差检验"的评测方法论——也是我最想让人看到的部分。

一条更深的方法论：二值阈值指标（veto）对噪声极敏感、连续均值（综合分）稳——headline 用连续分，找真问题用多次交集。这种"对自己指标的诚实"，正是判断 AI 能不能可靠嵌入产品的核心能力。

After

核心闭环（能问 → 能答 → 能溯源）全通，已可本地 + 内网穿透（cloudflared）分享给他人体验。

功能：MVP（结构化引用卡 + PDF 原文跳转 + 8 类边界兜底 + SSE 流式）+ V2（多轮对话、智能追问推荐、对话历史本地持久化、规范现行状态显示、侧栏规范分类 + 多选限定只查某几部、右栏内嵌 PDF 阅读器定位被引页）
质量：7 维综合分 90.3、单次 veto 砍到 13、原文用词 94%；多轮升级后离线评测确认无回归
语料：89 部 / 6 域 / 10785 chunks

如实说明：均为离线评测 + 自测数据，没有真实用户流量 / 留存 / 转化；toB 签约、商业化验证未开始——是下一阶段的事。

Takeaways

全过程沉淀成 77 条 AIPM 产品洞察（已主题化成 8 大主题 + 面试金句），其中可迁移到任何 AI 产品的核心几条：

这套方法论不绑定规范领域，是判断"AI 能力能否可靠嵌入产品"的通用工具——也是这个项目相对"只会调 prompt"的最大差异。