扫描版PDF目录制作指南

news/2024/7/1 14:32:45/文章来源:https://www.cnblogs.com/cjyyx/p/18270087

目前网上找到的扫描版的电子书往往没有目录,这使得阅读变得非常困难。本文总结我的经验,介绍快速制作扫描版 PDF 目录的方法,以便更轻松地阅读扫描版电子书。

本文首先介绍手动制作目录的方法,之后介绍如何利用 AI 帮助制作目录,接下来介绍了没有目录页的扫描版 PDF 的解决方案。本文提到的软件我都放在网盘分享链接中
https://pan.baidu.com/s/1nQEAKnuNcf2KxrAz473xIA?pwd=1234

目录 OCR

制作目录,首先要对扫描版电子书的目录页进行 OCR。

OCR 软件首推 PDF_XChange,该软件我已放到网盘中。OCR 方式如图所示

其次推荐 ABBYY FineReader PDF 15、Adobe acrcbat dc、扫描全能王等软件。

格式化目录

获得目录 ocr 结果后,可以先通过替换.. 全部去掉

之后去除中文字符间的空格。具体方法为打开 word 文档或 WPS,粘贴 OCR 内容,在替换框中选择 使用通配符,在查找内容中输入 ([一-龥]) ([一-龥]),在替换为中输入 \1\2,最后选择全部替换,此时 Word 将会找到所有匹配的两个汉字之间有一个空格的情况,并将空格去除,保留两个汉字。

之后是对照扫描版电子书格式化目录,最终转化成如下格式

第1章 嵌入式计算 1
1.1 引言 1
1.2 复杂系统与微处理器 1
1.2.1 嵌入式算机 2
......

然后用 PdgCntEditor 打开 PDF 文件,粘贴格式化的目录结果,按图所示依次点击

对应操作为

  1. 自动层次化目录
  2. 分割页码
  3. 设置基准页,即书的第1页在PDF文件中的页码

最后按 Ctrl+S 保存,可以看到目录已经制作完成

AI 帮助提取格式化目录

目录页 OCR 的结果已包含目录的全部信息,受到整理目录纯粹是个体力活,因此格式化目录可以借助 AI 完成。

经过我的多次试验,我发现比较好用的 Prompt 如下

您是一名经验丰富的图书管理员,正在参与一个将纸质书籍转化为电子书的项目。您的具体任务是利用OCR技术扫描书籍目录,并对扫描结果进行格式化处理,以制作电子目录。我将向您提供一份目录的OCR扫描结果,您需要根据这些信息输出一个结构化的电子目录。格式化的目录应该包括章节编号、标题和页码。一个您预期的格式化目录的示例如下:第3章 应力和应变分析 543.1 应力分析 543.1.1 应力张量及其分解 543.1.2 主应力和应力不变量 563.1.3 等斜面上的应力 573.1.4 等效应力 583.1.5 三向Mohr圆和Lode应力参数 593.1.6 应力空间和主应力空间 613.2 应变分析 623.2.1 位移与应变的关系 623.2.2 应变张量的分解和应变张量的不变量 633.2.3 等效应变和Lode应变参数 643.2.4 应变率张量和应变增量张量 65参考文献 66习题 66
第4章 屈服条件 684.1 初始屈服条件 684.2 两种常用的屈服条件 714.2.1 Tresca屈服条件 714.2.2 Mises屈服条件 744.2.3 两种屈服条件的比较 744.2.4 Mises屈服条件的物理解释 764.3 屈服条件的实验验证 774.4 后继屈服条件 80参考文献 83习题 83
第5章 塑性本构关系 855.1 弹性本构关系 855.2 Drucker公设 875.3 加载、卸载准则 925.3.1 理想塑性材料的加载、卸载准则 925.3.2 强化材料的加载、卸载准则 935.4 增量理论(流动理论) 935.4.1 概述 935.4.2 理想塑性材料与Mises条件相关联的流动法则 945.4.3 理想塑性材料与Tresca条件相关联的流动法则 975.4.4 强化材料的增量本构关系 995.5 全量理论(形变理论) 1015.5.1 Илъюшин理论 1015.5.2 简单加载和单一曲线假定 1025.5.3 简单加载定理 1045.5.4 塑性本构关系的总结与比较 1055.6 岩土力学中的Coulomb屈服条件和流动法则 107参考文献 109习题 109请确认您理解任务要求,并准备好接收OCR结果后,回复我“明白了”。然后我将发送OCR扫描的内容给您。

没有目录页的扫描版 PDF

这种情况就非常棘手了,一种方案是使用软件 PDF 补丁丁,如图所示

其原理是识别扫描版 PDF 的 OCR 结果,然后根据字体的大小判断是否是标题,再生成目录。

另一种方案是利用 AI 自动生成。这种方法我也没尝试过,但理论上可行,比如知乎用户层林尽染就利用 AI 分析知乎回答情况。

制作目录之后

之后是电子书的清晰化与压缩,这一步的教程网上有很多,比如玩转pdf之批量优化扫描版PDF书籍的清晰度https://zhuanlan.zhihu.com/p/67762085这篇文章。

最后是电子书的分享,比如可以上传到学校的资源库,如浙江大学课程攻略共享计划
https://github.com/QSCTech/zju-icicles

北大课程资料民间整理
https://github.com/lib-pku/libpku

也可以上传到 Z-Library
https://zh.zlibrary-east.se/

我也把我搜集的电子书都放在网盘中以供分享
https://pan.baidu.com/s/1gaeV_OuJ-zdF9SkOiONvhA?pwd=1234

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/731848.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ros - moveit - 三位模型导出URDF

1. 以UR3机器人为例, 先设计solidwork模型, 下载并安装sw_urdf_expoter 插件: 2. 下载机器人模型文件,加载进solidworks:插入基准轴: 一共6个旋转轴: 设置好旋转轴后,接下来,导出URDF文件: 配置URDF:将link加进来: 点击“Preview and Export”进行自动计算旋转轴…

为什么useEffect的第一个参数不能用异步函数

最近面试遇到了这个问题两次了,面试官: useEffect第一个参数可不可以用异步函数? 我们先来看看用了异步函数会报什么错报这个错的原因是因为async 会返回一个promise函数,而clean()函数不能是异步的 。 先来看看clean()函数的执行时机: 首次渲染不会进行清理,会在下一次渲…

离散数学重点整理

集合论 \(x \in A\): \(x\) 是 \(A\) 的一个元素 \(x \notin A\) (\(x\) 不属于 \(A\)): \(x\) 不是 \(A\) 的一个元素 \[A \subseteq B \Leftrightarrow \forall x(x \in A \rightarrow x \in B) \]\[A \subset B \Leftrightarrow A \subseteq B \wedge A \neq B \]\[…

EXQX-5.0.26 登录控制台

前言全局说明EXQX-5.0.26 登录控制台。一、说明 因 win 和 lin 控制台使用没有太大差异,故放一篇二、访问 2.1 本机访问 http://localhost:18083 或 http://127.0.0.1:18083 2.2 局域网访问 在网卡上查看你局域网IP http://局域网IP:18083/ 登录页:2.3 登录 默认,用户名:ad…

电工电子学复习总结

电路和电路元件 晶体管晶体管简化的小信号模型\[r_{\mathrm{be}}=r_{\mathrm{b}}+(\beta+1) \frac{26}{\{I_{\mathrm{E}}\}_{\mathrm{mA}}} \]其中,\(r_{\mathrm{b}}\)为基区电阻。当\(I_{E} < 5 \text{mA}\),\(r_{\mathrm{b}}=200 \Omega\)。 电路分析基础 电路定律 基尔…

EXQX-5.0.26服务Linux上安装使用

前言全局说明一、说明二、 2.1 文件名:2.2 文件名:三、 3.1 文件名:3.2 文件名:四、 4.1 文件名:4.2 文件名:免责声明:本号所涉及内容仅供安全研究与教学使用,如出现其他风险,后果自负。图片尺寸红色文字:红色文字 浅红色文字:浅红色文字 深红色文字:深红色文字 浅…

一文了解自定义表单系统开源的多个优势

如果想了解自定义表单系统开源的优势特点,可以从本篇文章的介绍中得到想要的答案。降本、提质、增效,是当前很多企业都想实现的目的。什么样的软件可以助力企业创造价值?低代码技术平台是近些年得到了很多客户喜爱的平台产品,因为它能帮助大家减少编程代码的撰写,能轻松助…

软件测试策略

互联网产品的测试策略: 重量级API测试,轻量级GUI测试,轻量级单元测试 以中间层的 API 测试为中点做全面测试 轻量级的 GUI 测试:只覆盖最核心直接影响主营业务的 E2E 场景,利用探索式测试思维,以人工测试的方式发现尽可能多的潜在问题 单元测试:只对那些相对稳定且核心的…

EXQX-5.0.26服务Windows上安装使用

前言全局说明一、说明 在 Windows 系统中建议仅将 EMQX 用于开发测试,推荐使用 Docker 安装。二、官方介绍 https://docs.emqx.com/zh/emqx/v5.0/deploy/install-windows.html三、解压、安装、启动 3.1解压 下载 emqx-5.0.26-windows-amd64.zip,并解压缩。 https://www.emqx.…

JDK的环境配置(超详细安装教程)_jdk环境配置

jdk17下载与安装教程,jdk17下载安装教程,安装jdk17并配置环境变量,jdk17安装教程详细,jdk17安装教程及环境变量配置本文讲解的是jdk17下载与安装教程,jdk17安装教程及环境变量配置,jdk17下载安装教程。JDK17 发布,与之前 LTS 版本的 JDK 8 和 JDK 11 相比,JDK17 的性能提升尤…

Could not resolve org.jetbrains.intellij.plugins:gradle-intellij-plugin

构建 idea 插件报错: A problem occurred configuring root project cola-tools. > Could not resolve all files for configuration :classpath.> Could not resolve org.jetbrains.intellij.plugins:gradle-intellij-plugin:1.16.1.Required by:project : > org.je…

dense并行训练1-流水线并行

并行训练-流水线 简述 并行训练主要有三种策略:数据并行训练加速比最高,但要求每个设备上都备份一份模型,显存占用比较高,但缺点是通信量大。 张量并行,通信量比较高,适合在机器内做模型并行。 流水线并行,训练设备容易出现空闲状态,加速效率没有DP高;但能减少通信边界…

【Creo】关于Creo一换网络就报错许可证丢失问题解决方案

依照我的个人理解,Creo只要一更换网络,则其许可证里面的网卡参数和现在的网络就对不上了,所以就会出现报错,并且有可能是报错代码(-9),提示许可证激活有问题。我的解决方案如下:1、找到之前安装的时候生成许可证时候用的文件:FillLicense.bat,右键管理员身份运行 这…

CREO 沟槽加工刀路编程

直接参考这个视频:creo沟槽加工_哔哩哔哩_bilibili 不管是内部沟槽还是外部沟槽都可以用这个视频提供的方法编程。 用轮廓铣削的方法编程。一定要选择 切削-进入-延宕 切削-退出-延宕,这两个参数分别选择引入、引出。同时记得填写引导半径和进刀角,出刀角!

机械臂 - URDF建模

机器人建模文件样例: 6轴机器人建模<?xml version="1.0"?> <robot xmlns:xacro="http://www.ros.org/wiki/xacro" name="test"><xacro:property name="length" value="0.6"/><xacro:property name…

关闭Windows中每天都会自启的Adobe更新程序

该方法主要适用于电脑上没安装XXX安全卫士、xx电脑管家的用户。装有这些软件的用户,估计不会碰到这个问题。如果还是碰到了,找到开机优化选项,在界面上方的工具栏上找到计划任务,点击进去后找到Adobe相关的禁用就行。 下面是具体方法: 1.打开控制面板->系统和安全,找到…

WPF中3D控件的使用

wpf使用了Directx,所有才能够进行3D编程。 比较方便的是,3D模型也是声明式的,就像普通控件一样。 由于3D控件也是声明式的,所以还可以利用binding改变其属性控件Viewport3D 这是一个3D视口,所有的3D控件都要放在这里面。 3D空间的基本元素是 相机、 光源、 对象。<!--空…

file_paths.xml设置

<?xml version="1.0" encoding="utf-8"?> <paths><!--<external-path path="Android/data/com.copasso.cocobill/" name="files_root" />--><external-path path="." name="external_sto…

network_security_config设置

<?xml version="1.0" encoding="utf-8"?> <network-security-config><base-config cleartextTrafficPermitted="true" /> </network-security-config>

geekopen 介绍

前言全局说明一、说明二、 2.1 文件名:2.2 文件名:三、 3.1 文件名:3.2 文件名:四、 4.1 文件名:4.2 文件名:免责声明:本号所涉及内容仅供安全研究与教学使用,如出现其他风险,后果自负。图片尺寸红色文字:红色文字 浅红色文字:浅红色文字 深红色文字:深红色文字 浅…