背景
我有 200 多篇旧博客,分布在三个不同的 CMS 里:WordPress(2014-2018)、Hugo(2019-2022)、Notion(2023 至今)。
每次想找某段思路,都要全局 grep,慢且不准。
我的目标是:把它们统一成一个可自然语言问答的知识库。
方案选择
我评估了 3 条路:
| 方案 | 优点 | 缺点 |
|---|---|---|
| 直接用 ChatGPT 帮我搜 | 最简单 | 每次都要拷整段文本,超出上下文会截断 |
| 搭建 RAG(本地模型) | 完全自己控制 | 工程成本高,后期要维护 |
| 用现成的 AI 知识库工具 + 我写脚本预处理 | 折衷 | 需要写数据清洗的脚本 |
我选了 方案三:先用脚本把旧文章统一清洗成结构化 Markdown,再用 Cursor 的 AI 帮我补元数据(tags/分类/摘要),最后用 Notion AI 的数据库做检索。
关键步骤
1. 导出 & 清洗
WordPress 的导出是 XML,需要解析。Notion 的导出是 Markdown 但有很多残留块。
我写了一个 300 行的 Python 脚本做以下事情:
- 统一编码为 UTF-8
- 移除主题注入的 HTML 标签
- 统一图片引用路径
- 去掉重复的标题
- 标准化 front matter(title/date/tags)
2. AI 补齐元数据
对每篇清洗后的文章,让 AI 做三件事:
1. 生成一句话摘要(≤ 60 字)
2. 给 3~5 个标签
3. 判断主题分类(技术 / 产品 / 随笔 / 教程)200 篇文章总花费约 $4.20,耗时约 12 分钟。
3. 构建索引 & 检索
把处理好的内容灌入 Notion Database,开启 AI 搜索。现在"我去年那篇关于 API 限流的文章怎么写的?“这种问题,5 秒内能找到原文。
遇到的坑
最大的坑不是技术,是内容质量。 我发现有 15 篇文章其实是同一件事的反复书写,AI 让我意识到"我一直在重复产出同样的想法”。
第二个坑是标签一致性。 AI 一会标「API」、一会标「接口设计」、一会标「后端」。必须做标签归一化。我最终保留了 18 个核心标签,其他都映射到这 18 个。
成果
- 200 篇 → 185 篇合格(15 篇重复被合并)
- 检索时间:从平均 3 分钟 → 5 秒
- 可以自然语言问答:“帮我找出关于 API 限流的所有文章,并给一个对比摘要”
我的心得
AI 不只是让你做同样的事情更快,而是让你能做之前根本不可能的事情。
如果靠人力去读 200 篇、打标签、建索引,可能需要 2~3 个周末。而且我大概率会中途放弃。
把知识从"你拥有"变成"你能随时用" —— 这是我这次最大的收获。