示例内容
AI PRACTITIONER · BLOG

用 AI 把 200 篇旧博客变成结构化知识库

一次真实的内容改造:从零散的 Markdown 到可搜索的向量知识库,完整流程和关键决策。

背景

我有 200 多篇旧博客,分布在三个不同的 CMS 里:WordPress(2014-2018)、Hugo(2019-2022)、Notion(2023 至今)。

每次想找某段思路,都要全局 grep,慢且不准

我的目标是:把它们统一成一个可自然语言问答的知识库。

方案选择

我评估了 3 条路:

方案优点缺点
直接用 ChatGPT 帮我搜最简单每次都要拷整段文本,超出上下文会截断
搭建 RAG(本地模型)完全自己控制工程成本高,后期要维护
用现成的 AI 知识库工具 + 我写脚本预处理折衷需要写数据清洗的脚本

我选了 方案三:先用脚本把旧文章统一清洗成结构化 Markdown,再用 Cursor 的 AI 帮我补元数据(tags/分类/摘要),最后用 Notion AI 的数据库做检索。

关键步骤

1. 导出 & 清洗

WordPress 的导出是 XML,需要解析。Notion 的导出是 Markdown 但有很多残留块。

我写了一个 300 行的 Python 脚本做以下事情:

  • 统一编码为 UTF-8
  • 移除主题注入的 HTML 标签
  • 统一图片引用路径
  • 去掉重复的标题
  • 标准化 front matter(title/date/tags)

2. AI 补齐元数据

对每篇清洗后的文章,让 AI 做三件事:

1. 生成一句话摘要(≤ 60 字)
2. 给 3~5 个标签
3. 判断主题分类(技术 / 产品 / 随笔 / 教程)

200 篇文章总花费约 $4.20,耗时约 12 分钟。

3. 构建索引 & 检索

把处理好的内容灌入 Notion Database,开启 AI 搜索。现在"我去年那篇关于 API 限流的文章怎么写的?“这种问题,5 秒内能找到原文

遇到的坑

最大的坑不是技术,是内容质量。 我发现有 15 篇文章其实是同一件事的反复书写,AI 让我意识到"我一直在重复产出同样的想法”。

第二个坑是标签一致性。 AI 一会标「API」、一会标「接口设计」、一会标「后端」。必须做标签归一化。我最终保留了 18 个核心标签,其他都映射到这 18 个。

成果

  • 200 篇 → 185 篇合格(15 篇重复被合并)
  • 检索时间:从平均 3 分钟 → 5 秒
  • 可以自然语言问答:“帮我找出关于 API 限流的所有文章,并给一个对比摘要”

我的心得

AI 不只是让你做同样的事情更快,而是让你能做之前根本不可能的事情。

如果靠人力去读 200 篇、打标签、建索引,可能需要 2~3 个周末。而且我大概率会中途放弃。

把知识从"你拥有"变成"你能随时用" —— 这是我这次最大的收获。