手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

Java 读取PDF文本内容

时间:2024-10-13 00:43:02

以下示例将介绍如何通过Java编程来读取PDF文档中的文本内容。

工具/原料

Spire.PDF for Java

文件引用

1、首先,在Java程序中新建一个文件夹可命名为Lib。下载控件包后,解压,将解压后的文件夹下的子文件夹造婷用痃lib中的Spire.Pdf.jar和Spire.Common.jar两个文件复制到新建的文件夹下,如下图:

Java 读取PDF文本内容

2、建好文件夹后,引用两个文件:选中这两个文件,任意点击其中之一,选择“Build Path” – “Add to Build Path”。

Java 读取PDF文本内容

Java代码示例(供参考)

1、 //创建PdfDocument实例 PdfDocument doc = new PdfDocu罪焐芡拂ment(); //加载PDF文件 doc.loadFromFile("sample.pdf"); //创建StringBuilder实例 StringBuilder sb = new StringBuilder(); PdfPageBase page; //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象 for(int i= 0;i<doc.getPages().getCount();i++){ page = doc.getPages().get(i); sb.append(page.extractText(true)); } FileWriter writer; try { //将StringBuilder对象中的文本写入到文本文件 writer = new FileWriter("ExtractText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } doc.close();

2、测试文档:

Java 读取PDF文本内容

3、读取结果:

Java 读取PDF文本内容
© 手抄报圈