Python将PDF转为png图像用python把pdf转成word

liuian 2024-12-29 04:28 29 浏览

最近开发办公类相关项目，在办公类项目不可避免的就是处理 Excel、Word、Pdf 之类的文档，需要将文档格式进行转换，以便于显示、打印等的需要。今天，我们来看一下 PDF 文档转换为 png 图像的方法，便于在项目中没有好的显示 PDF 文档的方法下通过转换为 png 图像进行显示。

1.PyMuPDF 简介

在介绍 PyMuPDF 之前，先来了解一下 MuPDF，从命名形式中就可以看出，PyMuPDF 是 MuPDF 的 Python接口形式。

1.1MuPDF

MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。

MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本，以在屏幕上再现打印页面的外观时获得最高保真度。

这个观察器很小，速度很快，但是很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对 PDF 文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

命令行工具允许您注释、编辑文档，并将文档转换为其他格式，如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。

1.2PyMuPDF

PyMuPDF 是支持 MuPDF 的Python绑定。

使用 PyMuPDF，你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大约10种流行的图像格式也可以像文档一样处理:“.png”，“.jpg”，“.bmp”，“.tiff”等。

2.PyMuPDF 安装

使用 pip 安装命令：

python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf

除了标准库，它没有强制性的外部依赖项。只有在安装了某些包时，才会有一些不错的方法

Pillow：当使用 Pixmap.pil_save() 和 Pixmap.pil_tobytes() 时需要
fontTools：当使用 Document.subset_fonts() 时需要
pymupdf-fonts 是一个不错的字体选择，可以用于文本输出方法

导入库：

import fitz

查看版本：

import fitz
print(fitz.__doc__)

3.使用 PyMuPDF

3.1打开文档

doc = fitz.open(filename)  # or fitz.Document(filename)

返回 Document 对象。

3.2 Document 的一些方法和属性

Method / Attribute	Description
Document.page_count	页数 (int)
Document.metadata	元数据 (dict)
Document.get_toc()	目录 (list)
Document.load_page()	读取页面

3.3 元数据

Key	Value
producer	producer (producing software)
format	format: ‘PDF-1.4’, ‘EPUB’, etc.
encryption	encryption method used if any
author	author
modDate	date of last modification
keywords	keywords
title	title
creationDate	date of creation
creator	creating application
subject	subject

3.4 使用目录大纲

toc = doc.get_toc()

3.5 使用页面

获取某页面：

page = doc.load_page(pno)  # loads page number 'pno' of the document (0-based)
page = doc[pno]  # the short form

迭代页面：

for page in doc:
    # do something with 'page'

# ... or read backwards
for page in reversed(doc):
    # do something with 'page'

# ... or even use 'slicing'
for page in doc.pages(start, stop, step):
    # do something with 'page'

3.6 呈现页面

获取页面内容的图像：

pix = page.get_pixmap()

3.7 保存页面为图像文件

pix.save("page-%i.png" % page.number)

4.示例代码

将 pdf 文件的每一页转换为 png 图像，代码如下：

# coding: utf-8
import sys
import fitz


# pdffilename 表示 PDF 文件名，全路径名
def arc2pdf(pdffilename: str):
    doc = fitz.open(pdffilename)
    for i in range(0, doc.page_count):
        page = doc.load_page(i)
        pix = page.get_pixmap()
        pix.save("%s._%i.png" % (pdffilename, page.number))


if __name__ == '__main__':
    if len(sys.argv) != 2:
        print('参数错误!')
        sys.exit(0)

    pdffilename=sys.argv[1]
    arc2pdf(pdffilename)

python html转pdf

上一篇：一个支持将html转为PDF、图片，且支持PDF加水印的项目
下一篇：使用 JavaScript 和 CSS 做一个图片转 PDF 的转换器

Python将PDF转为png图像用python把pdf转成word

1.PyMuPDF 简介

1.1MuPDF

1.2PyMuPDF

2.PyMuPDF 安装

3.使用 PyMuPDF

3.1打开文档

3.2 Document 的一些方法和属性

3.3 元数据

3.4 使用目录大纲

3.5 使用页面

3.6 呈现页面

3.7 保存页面为图像文件

4.示例代码

相关推荐

Python实现人事自动打卡，再也不会被批评

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

【验证码逆向专栏】vaptcha 手势验证码逆向分析

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

python使用fitz模块提取pdf中的图片

《人人译客》如何规划你的移动电商网站(2)

Jupyterhub安装教程 jupyter怎么安装包

Python将PDF转为png图像 用python把pdf转成word

1.PyMuPDF 简介

1.1MuPDF

1.2PyMuPDF

2.PyMuPDF 安装

3.使用 PyMuPDF

3.1打开文档

3.2 Document 的一些方法和属性

3.3 元数据

3.4 使用目录大纲

3.5 使用页面

3.6 呈现页面

3.7 保存页面为图像文件

4.示例代码

相关推荐

Python实现人事自动打卡，再也不会被批评

Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架，真香

【验证码逆向专栏】vaptcha 手势验证码逆向分析

网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

python使用fitz模块提取pdf中的图片

《人人译客》如何规划你的移动电商网站(2)

Jupyterhub安装教程 jupyter怎么安装包

Python将PDF转为png图像用python把pdf转成word

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄