用AI把《史记》57万字变成一个可跳转、搜索、推理的知识图谱!

用 AI 把《史记》57 万字变成一个可以跳转、搜索、推理的知识图谱。 这个项目shiji-kb把两千年前的文字,处理成像代码一样可以语法高亮、链接跳转、跨章推理的知识库。

具体介绍

规模有多大

  • 14065 个实体,126,441 次标注——人名、地名、官职、身份、邦国、军事动词,一共 22 类。
  • 3198 个历史事件,98.7% 标注了公元纪年。
  • 7637 条事件关系,9 种类型。
  • 130 条交互式时间线,他叫它”史记地铁图”——3,197 个站点,支持缩放拖拽。
  • Wiki 已经超过 20,000 页,三周内从 5,600 页涨到 20,830 页。

核心功能

  • 22 类实体语法高亮:18 类名词(人名/地名/官职/身份/时间/邦国/氏族/名物/族群/器物/天文/神话/生物/数量/典籍/礼仪/刑法/思想)+ 4 类动词(军事/刑罚/政治/经济)
  • 语法高亮开关:右上角齿轮按钮,可关闭高亮专注阅读(持久化保存偏好)
  • 知识索引跳转:14,065 个实体词条(126,441 次标注),别名 3,489 条(variants),章内消歧 11,514 处
  • Purple Numbers段落编号:每个段落可精确引用和分享(致敬Doug Engelbart)
  • 史记地铁图:130条线路×3,197站点,支持缩放/拖拽/搜索/时间线 (app/metro)

近期里程碑(2026-05-14)

  • Wiki 突破 20,000 页:三周内从 5,600 页增长至 20,830 页(含 1,246 篇 premium + 686 篇 featured 精品页),知识量 K ≈ 810,000
  • 首页 Hero 区大改版:星空背景图 + 篆刻印章 + 渐变遮罩,全断点响应式布局
  • Butler 累计运行 12,000+ 轮:从 R121→R12,000,涵盖 stub 新建、精品扩写、引文核验、断链修复、premium 升级、地名配图等全类型 wiki 维护操作
  • 五级质量评估体系:stub→basic→standard→featured→premium 自动化管线
  • 谭其骧《中国历史地图集》地名配图:600+ 地名页自动裁切历史地图截图
  • 实体全类型导入:20 类实体 ~6,290 页 + 458 篇故事 + 202 邦国页全量导入
  • 20 国君主世系表:全量重建,含无年代/无页面君主
  • 史源推理实验室扩展:12 个深度案例(107,000 字),含长平之战财政计算、冯谖烧券买义经济学分析

怎么做的

  • 没有人写传统程序。整套流程靠 89 个 SKILL 文档驱动——用结构化自然语言写清楚每一步的输入、处理逻辑、输出格式,AI 读 SKILL 执行 SKILL。
  • 九步管线:校勘 → 结构分析 → 实体标注 → 事件提取 → 关系发现 → 本体构建 → 逻辑推理 → 知识单元化 → 应用构造。
  • 质量控制用 Agent 反思迭代:事件年代跑了 5 轮,修正 2,100 处;实体标注跑了 4 轮,修正近 20,000 处。总成本:57 万字处理费约千元级别,优化后每 10 万字可以降到百元。

最有意思的地方

知识图谱在构建过程中发现了人力阅读很难注意到的模式:

  • 征服-治理倒转:打天下的手段恰恰是治天下的障碍。
  • 边缘优势:成功王朝一致从边缘地区起源。
  • 冯谖烧券买义的经济学:用现代财政分析拆解战国债务免除——孟尝君用 3000 金换薛地民心,收益率怎么算的?
  • 沙丘之谋四层传播链:赵高-李斯-胡亥密谋这个故事,从前 210 年到司马迁写成,经历了哪些叙事层叠?

这些不是历史爱好者的脑洞,是从结构化数据里推断出来的。

这可以用在别的历史书籍

这套方法论的意义不只是《史记》。作者估算:

  • 用同样管线处理《二十六史》全部 4000 万字,成本约 5-10 万元。
  • 《资治通鉴》600 万字,优化后约 1-2 万元。
  • SKILL 可复用,每部新古籍的处理成本递减。

阅读器演进五层次

从原始文本到全功能知识库:

原文 → 专名标注 → 语法高亮 → 语义排版 → 关系连线

项目地址

https://github.com/baojie/shiji-kb

在线阅读

https://shiji.memify.wiki

下载地址

https://pan.quark.cn/s/b021f04d1de3

JameCling
JameCling