

用 AI 把《史记》57 万字变成一个可以跳转、搜索、推理的知识图谱。 这个项目shiji-kb把两千年前的文字,处理成像代码一样可以语法高亮、链接跳转、跨章推理的知识库。

具体介绍
规模有多大
- 14065 个实体,126,441 次标注——人名、地名、官职、身份、邦国、军事动词,一共 22 类。
- 3198 个历史事件,98.7% 标注了公元纪年。
- 7637 条事件关系,9 种类型。
- 130 条交互式时间线,他叫它”史记地铁图”——3,197 个站点,支持缩放拖拽。
- Wiki 已经超过 20,000 页,三周内从 5,600 页涨到 20,830 页。

核心功能
- 22 类实体语法高亮:18 类名词(人名/地名/官职/身份/时间/邦国/氏族/名物/族群/器物/天文/神话/生物/数量/典籍/礼仪/刑法/思想)+ 4 类动词(军事/刑罚/政治/经济)
- 语法高亮开关:右上角齿轮按钮,可关闭高亮专注阅读(持久化保存偏好)
- 知识索引跳转:14,065 个实体词条(126,441 次标注),别名 3,489 条(variants),章内消歧 11,514 处
- Purple Numbers段落编号:每个段落可精确引用和分享(致敬Doug Engelbart)
- 史记地铁图:130条线路×3,197站点,支持缩放/拖拽/搜索/时间线 (app/metro)

近期里程碑(2026-05-14)
- Wiki 突破 20,000 页:三周内从 5,600 页增长至 20,830 页(含 1,246 篇 premium + 686 篇 featured 精品页),知识量 K ≈ 810,000
- 首页 Hero 区大改版:星空背景图 + 篆刻印章 + 渐变遮罩,全断点响应式布局
- Butler 累计运行 12,000+ 轮:从 R121→R12,000,涵盖 stub 新建、精品扩写、引文核验、断链修复、premium 升级、地名配图等全类型 wiki 维护操作
- 五级质量评估体系:stub→basic→standard→featured→premium 自动化管线
- 谭其骧《中国历史地图集》地名配图:600+ 地名页自动裁切历史地图截图
- 实体全类型导入:20 类实体 ~6,290 页 + 458 篇故事 + 202 邦国页全量导入
- 20 国君主世系表:全量重建,含无年代/无页面君主
- 史源推理实验室扩展:12 个深度案例(107,000 字),含长平之战财政计算、冯谖烧券买义经济学分析

怎么做的
- 没有人写传统程序。整套流程靠 89 个 SKILL 文档驱动——用结构化自然语言写清楚每一步的输入、处理逻辑、输出格式,AI 读 SKILL 执行 SKILL。
- 九步管线:校勘 → 结构分析 → 实体标注 → 事件提取 → 关系发现 → 本体构建 → 逻辑推理 → 知识单元化 → 应用构造。
- 质量控制用 Agent 反思迭代:事件年代跑了 5 轮,修正 2,100 处;实体标注跑了 4 轮,修正近 20,000 处。总成本:57 万字处理费约千元级别,优化后每 10 万字可以降到百元。

最有意思的地方
知识图谱在构建过程中发现了人力阅读很难注意到的模式:
- 征服-治理倒转:打天下的手段恰恰是治天下的障碍。
- 边缘优势:成功王朝一致从边缘地区起源。
- 冯谖烧券买义的经济学:用现代财政分析拆解战国债务免除——孟尝君用 3000 金换薛地民心,收益率怎么算的?
- 沙丘之谋四层传播链:赵高-李斯-胡亥密谋这个故事,从前 210 年到司马迁写成,经历了哪些叙事层叠?
这些不是历史爱好者的脑洞,是从结构化数据里推断出来的。

这可以用在别的历史书籍
这套方法论的意义不只是《史记》。作者估算:
- 用同样管线处理《二十六史》全部 4000 万字,成本约 5-10 万元。
- 《资治通鉴》600 万字,优化后约 1-2 万元。
- SKILL 可复用,每部新古籍的处理成本递减。
阅读器演进五层次
从原始文本到全功能知识库:
原文 → 专名标注 → 语法高亮 → 语义排版 → 关系连线
项目地址
https://github.com/baojie/shiji-kb
