python 自动识别pdf文件的目录

1、用到的库:使用pymupdf库可以获取PDF书签目录。官方文档:pymupdf.readthedocs.io/...安装:使用:使用以下语句来读取PDF的目录:编写一个函数分析PDF的目录情况:解析:使用for循环逐个分析书签目录,每一条目录提取出来是一个包含三个元素的列表。['1','第一章xxxxx','xxxx']我们需要的是第二个元...
python 自动识别pdf文件的目录
需求:我学习的资料大多是PDF文件(如PDF资料、论文等),但在阅读时,常常需要一页页翻阅才能找到所需章节,这种查找方式效率低下。我更喜欢跟随目录快速跳转到想要阅读的章节。

许多朋友可能也有相同的体验,当打开资源管理器时,往往不知道资料是否包含目录,以及目录的数量,这极大地影响了阅读效率。

本文将向大家介绍一种解决方案,即在文件名中插入目录标签信息前缀:

概念:

PDF文件的书签目录:TOC(即table of content),可以帮助读者快速跳转到感兴趣的章节进行阅读。

1、用到的库:

使用pymupdf库可以获取PDF书签目录。

官方文档:pymupdf.readthedocs.io/...

安装:

使用:

使用以下语句来读取PDF的目录:

编写一个函数分析PDF的目录情况:

解析:

使用for循环逐个分析书签目录,每一条目录提取出来是一个包含三个元素的列表。['1','第一章xxxxx','xxxx']

我们需要的是第二个元素,即目录文字。即

然后判断这条目录是否有效,排除机器生成的001、002等不含内容的书签。

最后,sumt变量保存统计完成的书签条数。

函数根据sumt变量返回一个我们自己约定的标签值:例如,0-30条目录的PDF返回t30;31-80条目录的PDF返回t80,以此类推...

t999表示大于800条书签的PDF。

后续我编写了代码,实现了当前程序目录和子目录的批量判断,并以前缀的形式将返回值插入到了文件名中:

以后打开资源管理器,就能看到自己的资料包含多少目录了。这样的做法大大提高了效率。

ok,不多说,直接上完整代码:2024-09-07
mengvlog 阅读 9 次 更新于 2025-07-21 00:57:44 我来答关注问题0
檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部