返回演示项目

研究背景

许多珍贵的古籍工具书(如字典、韵书、类书)仅有纸质版或扫描 PDF,无法像现代电子词典一样快速检索。研究者往往需要逐页翻阅,效率极低。

MDict 是一种流行的电子词典格式,支持快速检索和跨平台使用。本工具将扫描 PDF 转换为 MDX 格式,让古籍工具书也能享受现代检索技术的便利。

核心功能

  • PDF 页面自动提取与图像优化
  • 支持自定义词条索引(手工或 OCR)
  • 异步任务队列,处理大型 PDF 不阻塞
  • 自动生成符合 MDict 规范的词典文件
  • 支持批量处理多个 PDF

技术方法

系统采用异步任务架构:

  • Flask 提供 Web 界面与 API
  • Celery + Redis 处理耗时的 PDF 转换任务
  • PyMuPDF 提取 PDF 页面图像
  • MDX 编译器生成最终词典文件
Python Flask Celery Redis Docker

使用材料

本工具可处理任意扫描版 PDF,典型应用场景包括:

  • 古籍字典(如《康熙字典》《说文解字》)
  • 佛学辞典(如《佛光大辞典》《丁福保佛学辞典》)
  • 类书索引(如《太平御览》《艺文类聚》)
  • 其他工具书扫描件

数字文献学启发

本项目解决了「纸质工具书数字化」的最后一公里问题。许多工具书已有扫描件,但缺乏检索能力使其难以真正发挥作用。将扫描件转为可检索的词典格式,是让这些珍贵资源重获生命的关键一步。

立即体验 查看其他项目