Skip to content

Jamiee42/pdf_checker

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🇺🇸 English

PDF Checker 预检助手

一款采用 Python 编写的桌面工具,可用于快速判断 PDF 页面类型,并输出 Excel 格式的统计报告。

核心功能

  • 页面分析:读取 PDF 文件,判断页面类型,目前支持区分:可编辑/不可编辑/空白/无法识别(加密/损坏)
  • 数据导出:生成 Excel 统计报告,精确至具体页码
  • 置信度提示:特殊页面(如转曲)标注复核建议
  • GUI 友好:界面简洁清晰,实时展现处理进度

获取程序

⬇️ 点击下载 Windows 版

快速开始

  1. 运行:双击“PDF Checker 预检助手.exe”
  2. 选择文件:在「1. 选择 PDF 文件」中,点击浏览,选择你要分析的 PDF 文件
  3. 选择路径:在「2. 选择输出位置」中,点击浏览,选择 Excel 统计报告的存放路径
  4. 分析:点击开始分析,等待完成(请勿关闭程序)
  5. 结果预览:在进度条下方显示“分析完成”后,可在「3. 分析结果」中查看简报
  6. 结果保存:点击导出 Excel保存统计报告

界面截图

  • 主界面 主界面,包含三个区域:上方输入区(PDF 路径和报告输出路径选择)、中间分析区(开始分析按钮和进度条)、下方输出区(分析简报和导出按钮)
  • 统计报告 Excel 报告,列的内容包含文件名、总页数、可编辑/不可编辑/空白页/无法识别的页数、注意(复核提示)

技术栈

  • Python + CustomTkinter + pdfplumber + PyPDF2 + openpyxl

已知限制

限制 说明 建议
大文件性能 500 页或 50MB 以上分析较慢 请耐心等待,不要强制关闭
页眉页脚识别 封面页、标题页等少量文字页面可能被误判为「空白页」 查看 Excel「注意」列的复核提示
图像内容 无法判断图像是否需要处理(如照片 vs 文字截图),照片类页面统一标记为「不可编辑」 建议人工复核
加密文件 不支持解密,仅提示「文件已加密」 请自行解密后使用
双层 PDF 上层是原始扫描图像,下层是 OCR 识别出的隐藏文字,当 OCR 文字较多时会被判为「可编辑」,但实务中做「不可编辑」处理 建议人工复核
表单域识别 无相关识别规则,仅有表单域的页面可能被误判为「空白页」 建议人工复核

功能计划

  • 批量处理
  • 识别表单区域
  • 指定页码范围
  • 自定义判断阈值
  • 弹窗提示用户输入密码

遇到问题?

查看 使用指南 获取详细说明、结果解读和常见问题解答。

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages