本文将介绍通过Java来提取或读取Word文档中文本和图片的方法。这里提取文本和图片包括同时提取文档正文当中以及页眉、页脚中的的文本和图片。
工具/原料
Spire.Doc for Java v2.2.0
jar文件导入
1、方法1:从官网(https://www.e-iceblue.cn/Downloads/Spire-Doc-JAVA.html)下载jar包。在程序下新建一个directory目录,并命名(本示例中命名为lib);将控件包lib文件夹下的jar(如下图1)拷贝到程序中新建的目录下。复制jar文件后,鼠标右键点击jar文件,选择”Add as Library”。完成导入(如下图2)。
2、方法2:通过maven导入。参考导入方法(https://www.e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.html )。
测试文档(源文档)
提取Word中的文本
1、import com.spire.doc.*;import java.io.FileWriter;import java.io.IOException;public class ExtractText { public static void main(String[] args) throws IOException{ //加载测试文档 Document doc = new Document(); doc.loadFromFile("test.docx"); //获取文本保存为String String text = doc.getText(); //将String写入Txt writeStringToTxt(text,"提取文本.txt"); } public static void writeStringToTxt(String content, String txtFileName) throws IOException { FileWriter fWriter= new FileWriter(txtFileName,true); try { fWriter.write(content); }catch(IOException ex){ ex.printStackTrace(); }finally{ try{ fWriter.flush(); fWriter.close(); } catch (IOException ex) { ex.printStackTrace(); } } }}
2、文本提取结果:
提取Word中的图片
1、import com.spire.doc.Document;import com.spire.doc.documents.DocumentObjectType;import com.spir髫潋啜缅e.doc.fields.DocPicture;import com.spire.doc.interfaces.ICompositeObject;import com.spire.doc.interfaces.IDocumentObject;import javax.imageio.ImageIO;import java.awt.image.RenderedImage;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.LinkedList;import java.util.List;import java.util.Queue;public class ExtractImg { public static void main(String[] args) throws IOException { //加载Word文档 Document document = new Document(); document.loadFromFile("test.docx"); //创建Queue对象 Queue nodes = new LinkedList(); nodes.add(document); //创建List对象 List images = new ArrayList(); //遍历文档中的子对象 while (nodes.size() > 0) { ICompositeObject node = (ICompositeObject) nodes.poll(); for (int i = 0; i < node.getChildObjects().getCount(); i++) { IDocumentObject child = node.getChildObjects().get(i); if (child instanceof ICompositeObject) { nodes.add((ICompositeObject) child); //获取图片并添加到List if (child.getDocumentObjectType() == DocumentObjectType.Picture) { DocPicture picture = (DocPicture) child; images.add(picture.getImage()); } } } } //将图片保存为PNG格式文件 for (int i = 0; i < images.size(); i++) { File file = new File(String.format("图片-%d.png", i)); ImageIO.write((RenderedImage) images.get(i), "PNG", file); } }}
2、图片提取结果: