这里简单介绍2种Java读取PDF文件内容的方法,分别是PDFBox和Spire.PDF,感兴趣的朋友可以尝试一下:

一、PDFBox

这是Apache提供的一个免费、开源工具,专门用于操作PDF文档,目前支持加密/解密PDF文档,从PDF文档中导出表单数据,向已有PDF文档追加内容,以及切分PDF文档等,导入项目或工程的话,可以直接下载Jar包,也可以直接Maven引入,如下:

java

导入成功后,我们就可以直接编码读取PDF文件内容了,测试代码如下,基本思路先加载PDF文件,创建PDDocument对象,然后再创建一个PDFTextStripper文本剥离器,最后再直接获取PDF文本内容即可,整个过程不难,理解起来也非常容易:

java

二、Spire.PDF

这也是一个专门用于读取PDF文件内容的Java工具包,商业版需要付费购买,也有个人免费版,但功能比较局限,只能提取前10页内容,目前支持文本、图片等内容提取,导入项目或工程的话,可以直接下载Jar包,也可以直接Maven引入,如下:

java

导入完成后,我们就可以直接编码来读取PDF文件内容了,测试代码如下,基本思路先加载PDF文件,然后循环遍历每页提取内容(文本的话是extractText方法,图片的话是extractImages方法),最后再输出或保存提取内容即可:

java

目前,就分享这2种Java读取PDF文件内容的方法吧。总的来说,整个过程非常简单,只要你有一定Java基础,熟悉一下上面的代码和示例,很快就能掌握的,当然,你也可以使用其他工具包,像iTika等也都非常不错