AutoMDX Builder | 数字文献学

研究背景

许多珍贵的古籍工具书（如字典、韵书、类书）仅有纸质版或扫描 PDF，无法像现代电子词典一样快速检索。研究者往往需要逐页翻阅，效率极低。

MDict 是一种流行的电子词典格式，支持快速检索和跨平台使用。本工具将扫描 PDF 转换为 MDX 格式，让古籍工具书也能享受现代检索技术的便利。

核心功能

PDF 页面自动提取与图像优化
支持自定义词条索引（手工或 OCR）
异步任务队列，处理大型 PDF 不阻塞
自动生成符合 MDict 规范的词典文件
支持批量处理多个 PDF

技术方法

系统采用异步任务架构：

Flask 提供 Web 界面与 API
Celery + Redis 处理耗时的 PDF 转换任务
PyMuPDF 提取 PDF 页面图像
MDX 编译器生成最终词典文件

Python Flask Celery Redis Docker

使用材料

本工具可处理任意扫描版 PDF，典型应用场景包括：

古籍字典（如《康熙字典》《说文解字》）
佛学辞典（如《佛光大辞典》《丁福保佛学辞典》）
类书索引（如《太平御览》《艺文类聚》）
其他工具书扫描件

数字文献学启发

本项目解决了「纸质工具书数字化」的最后一公里问题。许多工具书已有扫描件，但缺乏检索能力使其难以真正发挥作用。将扫描件转为可检索的词典格式，是让这些珍贵资源重获生命的关键一步。

立即体验查看其他项目了解更多关于数字文献学