文档在线预览(二)将word、pdf文件转html实现文档在线预览

liuian 2024-12-29 04:28 27 浏览

实现文档在线预览的方式除了上篇文章《文档在线预览（一）通过将txt、word、pdf转成图片实现在线预览功能》说的将文档转成图片的实现方式外，还有转成pdf，前端通过pdf.js、pdfobject.js等插件来实现在线预览，以及本文将要说到的将文档转成html的方式来实现在线预览。代码基于 aspose-words（用于word转html），pdfbox（用于pdf转html），所以事先需要在项目里下面两个依赖：

<dependency>    
    <groupId>com.luhuiguo</groupId>    
    <artifactId>aspose-words</artifactId>    
    <version>23.1</version></dependency>
<dependency>    
    <groupId>org.apache.pdfbox</groupId>    
    <artifactId>pdfbox</artifactId>    
    <version>2.0.4</version>
</dependency>

一、将文件转换成html字符串

1、将word文件转成html字符串

public static String wordToHtmlStr(String wordPath) {
        try {
            Document doc = new Document(wordPath); // Address是将要被转化的word文档
            String htmlStr = doc.toString();
            return htmlStr;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

验证结果：

2、将pdf文件转成html字符串

public static String pdfToHtmlStr(String pdfPath) throws IOException, ParserConfigurationException {
        PDDocument document = PDDocument.load(new File(pdfPath));
        Writer writer = new StringWriter();
        new PDFDomTree().writeText(document, writer);
        writer.close();
        document.close();
        return writer.toString();
    }

验证结果：

二、将文件转换成html，并生成html文件

有时我们是需要的不仅仅返回html字符串，而是需要生成一个html文件这时应该怎么做呢？一个改动量小的做法就是使用org.apache.commons.io包下的FileUtils工具类写入目标地址：

FileUtils类将html字符串生成html文件示例：

首先需要引入pom：

        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.8.0</version>
        </dependency>

1、将word文件转换成html文件

public static void wordToHtml(String wordPath, String htmlPath) {
        try {
            File sourceFile = new File(wordPath);
            String path = htmlPath + File.separator + sourceFile.getName().substring(0, sourceFile.getName().lastIndexOf(".")) + ".html";
            File file = new File(path); // 新建一个空白pdf文档
            FileOutputStream os = new FileOutputStream(file);
            Document doc = new Document(wordPath); // Address是将要被转化的word文档
            HtmlSaveOptions options = new HtmlSaveOptions();
            options.setExportImagesAsBase64(true);
            options.setExportRelativeFontSize(true);
            doc.save(os, options);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

验证结果：

2、将pdf文件转换成html文件

public static void pdfToHtml(String pdfPath, String htmlPath) throws IOException, ParserConfigurationException {
        File file = new File(pdfPath);
        String path = htmlPath + File.separator + file.getName().substring(0, file.getName().lastIndexOf(".")) + ".html";
        PDDocument document = PDDocument.load(new File(pdfPath));
        Writer writer = new PrintWriter(path, "UTF-8");
        new PDFDomTree().writeText(document, writer);
        writer.close();
        document.close();
    }

图片版PDF文件验证结果：

文字版PDF文件验证结果：

python html转pdf

上一篇：怎样把网页内容保存为PDF文件格式
下一篇：从PDF转换到HTML5的三种方法，你用过吗?

文档在线预览(二)将word、pdf文件转html实现文档在线预览

一、将文件转换成html字符串

1、将word文件转成html字符串

2、将pdf文件转成html字符串

二、将文件转换成html，并生成html文件

FileUtils类将html字符串生成html文件示例：

1、将word文件转换成html文件

2、将pdf文件转换成html文件

相关推荐

Python实现人事自动打卡，再也不会被批评

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

【验证码逆向专栏】vaptcha 手势验证码逆向分析

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

python使用fitz模块提取pdf中的图片

《人人译客》如何规划你的移动电商网站(2)

Jupyterhub安装教程 jupyter怎么安装包

文档在线预览(二)将word、pdf文件转html实现文档在线预览

一、将文件转换成html字符串

1、将word文件转成html字符串

2、将pdf文件转成html字符串

二、将文件转换成html，并生成html文件

FileUtils类将html字符串生成html文件示例：

1、将word文件转换成html文件

2、将pdf文件转换成html文件

相关推荐

Python实现人事自动打卡，再也不会被批评

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

【验证码逆向专栏】vaptcha 手势验证码逆向分析

网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

python使用fitz模块提取pdf中的图片

《人人译客》如何规划你的移动电商网站(2)

Jupyterhub安装教程 jupyter怎么安装包

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄