Web应用程序如何创建 PDF

逻辑探幽人
• 阅读 3308

为了保证的可读性,本文采用意译而非直译。

想阅读更多优质文章请猛戳GitHub博客,一年百来篇优质文章等着你!

在一些场景下,用户都要求一些需要的数据能以 pdf 的格式下载下来。如电子商务商店,经常需要一些报表数据来分析当月的销售情况。

在本文中,将探讨如何从一个web应用程序中直接生成一个PDF。这不是一个生成 PDF 库列表,这里主要的目的是展示不同生成 PDF 的方法。如果你有自己喜欢的工具或任何经验可以在评论中分享给我们。

从HTML和CSS开始

首先考虑如何使用HTML和CSS生成PDF版本。

CSS确实有一个处理打印CSS的规范,就是 Paged Media module。之前的文章《用CSS设计打印格式》中概述了这个规范,许多图书出版商在他们所有的打印输出中都使用了CSS。因此,CSS本身就有打印材料的规格,我们当然应该能够使用它?

用户生成PDF的最简单方法是直接通过的浏览器,选择打印 PDF,将生成一个PDF。可悲的是,这个PDF通常并不完全令人满意!首先,它会有页眉和页脚,当你从网页打印内容时,这些页眉和页脚会自动添加。当然如果你有一个样式表,它也会根据打印样式表进行格式化。

用浏览器直接打印的一个问题是浏览器对片断规范(fragmentation )的支持不足。这可能意味着你的页面内容以不同寻常的方式中断。这说明你可能无法防止内容的次优中断,如标题将作为页面上的最后一项保留,依此类推。

此外,我们无法控制页边距框中的内容,例如 将我们选择的标题添加到每个页面或页码编号,以显示页数。 这些内容是Paged Media规范的一部分,但尚未在任何浏览器中实现。

使用浏览器渲染引擎打印

还有一些方法可以使用浏览器渲染引擎将文档打印成PDF,而不需要在浏览器中使用打印的菜单,并且以页眉和页脚结束。在我之前的的推文时,最受欢迎的选项是wkhtmltopdf,以及使用无头ChromePuppeteer打印。

WKHTMLTOPDF

wkhtmltopdf

接受HTML文件或多个文件,以及样式表,并将其转换为PDF。它通过使用WebKit渲染引擎来实现这一点。

因此,从本质上讲,这个工具与与浏览器打印效果是一样的,但是,不会得到自动添加的页眉和页脚。从乐观上讲,如果你有一个可用于内容的打印样式表,那么可以使用这个工具很好地打印PDF,因此一个简单的布局可能打印得更好。

然而,不幸的是,由于不支持分页媒体规范和片段(fragmentation)属性,仍然会遇到与直接从web浏览器打印相同的问题,因为仍然使用的是浏览器渲染引擎进行打印。

可以将一些标志传递到wkhtmltopdf中,以便使用分页媒体规范在缺省情况下添加一些缺失的特性。然而,这确实需要一些额外的工作,除了写好的 HTML 和CSS。

无头 Chrome

另一种是使用无头的谷歌浏览器来打印 PDF。

然而,再次受到浏览器对 Paged Media 和 fragmentation 支持的限制。有一些选项可以传递到page.pdf()函数中。与wkhtmltopdf一样,如果有浏览器支持,添加了一些CSS 提供的功能。

很可能这些解决方案中的一个可以满足你的所有需求,但是,如果发现你正在进行某种程度的任务,很可能已经达到了当前浏览器渲染引擎的极限,这就需要寻找更好的解决方案。

使用 JavaScript 来实现 Paged Media规范

尝试使用JavaScript 实现Paged Media规范 - 实际上是创建了 Paged Media Polyfill。 也可以在使用 Puppeteer 提供对 Paged Media支持。 看看 paged.jsVivliostyle

使用打印用户代理

如果你想继续使用 HTML 和 CSS 解决方案,那么你需要查看用于从 HTML 和 CSS 打印的用户代理(UA),其中包含用于从文件生成 PDF 的 API。 这些用户代理实现了Paged Media规范,并且对 CSS Fragmentation属性有了更好的支持;,这样可以更好地控制输出: 主要选择包括:

打印UA将像web浏览器一样使用CSS格式化文档。与浏览器支持CSS一样,需要查看这些UA的的文档,以了解它们支持什么。例如,Prince 在编写本文时支持Flexbox,但不支持CSS网格布局。当将页面发送到正在使用的工具时,通常会使用一个用于打印的特定样式表。与常规打印样式表一样,我在站点上使用的CSS并不都适合PDF版本。

为这些工具创建样式表与创建常规打印样式表非常相似,可能使用不同的字体大小或颜色来决定显示或隐藏什么。然后,可以利用分页媒体规范( Paged Media specification)中的功能,添加脚注、页码等。

就从web应用程序使用这些工具而言,需要在服务器上安装它们。这些工具的主要问题是它们很昂贵。也就是说,考虑到你可以轻松地使用它们生成打印文档,它们可能会在节省的开发人员时间中得到很好的回报。

可以通过API(按文档付费)通过DocRaptor服务使用Prince。对于许多应用程序来说,这无疑是一个很好的起点,因为它看起来似乎可以使你自己的主机变得更加经济有效,而切换的开发成本将是最小的。

一个免费的替代方案是WeasyPrint,它不像上面的工具那么全面,但很有可能已经满足你的需求。它没有完全实现所有分页媒体规范,但是,它实现的比浏览器引擎更多。当然,你可以试试!

声称支持从HTML和CSS转换的其他工具包括PDFCrowd,它大胆声称支持HTML5,CSS3和JavaScript。 但是,我无法找到关于支持的确切内容的任何细节,以及是否有任何分布媒体规范。

不使用HTML和CSS

还有许多其他的解决方案,它们不再使用HTML和CSS,而是要求你为工具创建特定的输出。下面是对应的工具:

推荐

除了基于javascript的方法(它要求打印内容创建完全不同的表示形式)之外,这些解决方案的优点在于它们是可互换的。如果你的解决方案基于调用命令行工具,并将该工具传递给你的HTML、CSS,可能还传递一些JavaScript,那么在工具之间切换是相当简单的。

为了支持分布媒体和fragmentation,Prince,Antenna House 和 PDFReactor可以作为首选。 作为商业产品,他们也得到了支持。

但是,在许多情况下,免费工具也很适合。 如果你的的需求非常简单,那么wkhtmltopdf,或者基本的无头ChromePuppeteer就可以解决问题。

但是,如果你发现打印的结果不是自己想要的,请注意这可能是浏览器打印的限制,而不是你做错了什么。如果你想要更多的页面媒体支持,但又无法获得商业产品,也许可以看看WeasyPrint

希望这是一个有用的工具总结,可用帮你的web应用程序创建pdf。

工具

交流

干货系列文章汇总如下,觉得不错点个Star,欢迎 加群 互相学习。

https://github.com/qq44924588...

我是小智,公众号「大迁世界」作者,对前端技术保持学习爱好者。我会经常分享自己所学所看的干货,在进阶的路上,共勉!

关注公众号,后台回复福利,即可看到福利,你懂的。

Web应用程序如何创建 PDF

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
逻辑探幽人
逻辑探幽人
Lv1
全身而退我不舍,我等时间在惭愧.
文章
4
粉丝
0
获赞
0