一款采用 Python 编写的桌面工具,可用于快速判断 PDF 页面类型,并输出 Excel 格式的统计报告。
- 页面分析:读取 PDF 文件,判断页面类型,目前支持区分:可编辑/不可编辑/空白/无法识别(加密/损坏)
- 数据导出:生成 Excel 统计报告,精确至具体页码
- 置信度提示:特殊页面(如转曲)标注复核建议
- GUI 友好:界面简洁清晰,实时展现处理进度
- 运行:双击“PDF Checker 预检助手.exe”
- 选择文件:在「1. 选择 PDF 文件」中,点击
浏览,选择你要分析的 PDF 文件 - 选择路径:在「2. 选择输出位置」中,点击
浏览,选择 Excel 统计报告的存放路径 - 分析:点击
开始分析,等待完成(请勿关闭程序) - 结果预览:在进度条下方显示“分析完成”后,可在「3. 分析结果」中查看简报
- 结果保存:点击
导出 Excel保存统计报告
- Python + CustomTkinter + pdfplumber + PyPDF2 + openpyxl
| 限制 | 说明 | 建议 |
|---|---|---|
| 大文件性能 | 500 页或 50MB 以上分析较慢 | 请耐心等待,不要强制关闭 |
| 页眉页脚识别 | 封面页、标题页等少量文字页面可能被误判为「空白页」 | 查看 Excel「注意」列的复核提示 |
| 图像内容 | 无法判断图像是否需要处理(如照片 vs 文字截图),照片类页面统一标记为「不可编辑」 | 建议人工复核 |
| 加密文件 | 不支持解密,仅提示「文件已加密」 | 请自行解密后使用 |
| 双层 PDF | 上层是原始扫描图像,下层是 OCR 识别出的隐藏文字,当 OCR 文字较多时会被判为「可编辑」,但实务中做「不可编辑」处理 | 建议人工复核 |
| 表单域识别 | 无相关识别规则,仅有表单域的页面可能被误判为「空白页」 | 建议人工复核 |
- 批量处理
- 识别表单区域
- 指定页码范围
- 自定义判断阈值
- 弹窗提示用户输入密码
查看 使用指南 获取详细说明、结果解读和常见问题解答。

