Skip to content

ywwsnowboy/PDF_Contents_Generator

Repository files navigation

PDF_Contents_Generator

这是PDF目录生成器

实现功能

  1. 将提取的 txt 文件处理后保存在output_txt文件夹中
  2. output_txt文件夹中的 txt 文档写入到 pdf 文件中,将page_data.pkl文件中存储的页码变量也写入 pdf 文件中
  3. output_txt文件夹中的 txt 文档写入到 pdf 文件中,不写入页码信息,所有的页码都为5

使用方法

  1. 首先使用福昕阅读器将下载的文档进行 OCR 识别,并将文档保存,保存该 pdf 到 input_pdf 文件夹中

image-20230911110715280

  1. 然后手动将PDF目录提取出来,如果需要处理txt目录,保存在input_txt文件夹中,如果不需要,则直接将txt目录存放在保存在input_txt文件夹中:

image-20230911111053123

  1. 然后根据需求执行上述的三个功能:

    1. 功能一:is_modify_txt = 1
      • 因为上述的txt文档存在一些问题,可能是页码问题,也可能会有特殊符号,如“.”,“…”,“/”等,需要手动删除,这部分的代码将后面的页码保存在page_data.pkl文件中,同时根据章节进行分级(判断方式为.的个数),同时删除每一行后面的数字和空格
      • 处理后的文档保存在output_txt文件夹中
    2. 功能二:is_write_txt_to_pdf = 1
      • 将准备好写入的txt文件保存在output_txt文件夹中
      • 将功能一中保存的page_data.pkl页码数据以及output_txt文件夹中的目录文件xxx.txt写入到 pdf 文件中
      • 注意,这里会覆盖到之前pdf文档中的目录
    3. 功能三:is_write_txt_to_pdf_with_no_page_information = 1
      • 将准备好写入的txt文件保存在output_txt文件夹中
      • 功能三相对功能二缺乏将页码存入到 pdf 文件中,这里仅仅将不包含页码的 txt 文件存入到 pdf 文件中

About

这是PDF目录生成器

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages