PuppeteerSharp库在C#中的应用案例

小白学大数据
• 阅读 98

PuppeteerSharp库在C#中的应用案例 引言 PuppeteerSharp是一个针对Google Chrome浏览器的高级API库,它允许我们使用C#来控制Chrome浏览器的,比如模拟用户行为操作、爬取网页内容等。本文将介绍如何使用PuppeteerSharp库在C#中实现下载千图网图片并保存为PDF文件的案例。 PuppeteerSharp技术 PuppeteerSharp 提供了一系列丰富的功能,包括但不限于: ● 模拟用户操作:可以模拟用户在浏览器中的点击、输入等操作。 ● 爬取网页内容:可以获取网页的HTML、截图等信息。 ● 生成PDF文件:可以将网页内容保存为PDF文件。 项目需求 我们的项目需求是从千图网上爬取图片,把这些图片保存为PDF文件。为了实现这个目标,我们将使用PuppeteerSharp库来模拟浏览器行为,从网页中获取图片,把这些图片保存为PDF文件。 抓取思路分析

  1. 分析页面请求:使用Chrome开发者工具或类似工具分析千图网的页面请求,找到图片数据的来源。
  2. 找到数据来源:确定图片数据是通过接口获取还是直接嵌入在页面中。
  3. 分析接口规律:如果图片数据是通过接口获取的,分析接口的规律,包括请求方式、参数等。
  4. 获取接口数据:使用PuppeteerSharp库模拟请求接口,获取图片数据。
  5. 过滤处理数据:对获取的图像数据进行过滤和处理,提取出需要的图像信息。 完整的爬取过程:
    using PuppeteerSharp;
    using System;
    using System.IO;
    using System.Threading.Tasks;
    

class Program { static async Task Main(string[] args) { var proxy = new ProxyOptions { Server = "www.16yun.cn", Port = 5445, Username = "16QMSOML", Password = "280651" };

    await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
    using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
    {
        Headless = true,
        Args = new[] { $"--proxy-server=http://{proxy.Server}:{proxy.Port}", $"--proxy-auth={proxy.Username}:{proxy.Password}" }
    });
    var page = await browser.NewPageAsync();
    await page.GoToAsync("https://www.example.com");

    // 获取图片数据并保存为PDF的代码逻辑
    // ...

    await browser.CloseAsync();
}

}

以上是一个简单的使用PuppeteerSharp库的示例,其中包含了创建浏览器实例、打开页面等基本操作。在实际项目中,我们需要根据具体的需求和网站结构来编写更复杂的爬取和保存逻辑。
如何解析抓取来的内容
当解析来的内容时,我们可以使用C#中的Json.NET库或者内置的System.Text.Json库来处理JSON格式的数据。以下是一个简单的代码,演示了如何使用Json.NET库来解析JSON格式的数据:
``` using Newtonsoft.Json;
using System;

public class ImageData
{
    public string Url { get; set; }
    public string Description { get; set;
}

class Program
{
    static void Main()
    {
        string jsonData = @"{
            'url': 'https://example.com/image1.jpg',
            'description': 'Beautiful landscape'
        }";

        ImageData imageData = JsonConvert.DeserializeObject<ImageData>(jsonData);

        Console.WriteLine("Image URL: " + imageData.Url);
        Console.WriteLine("Description: " + imageData.Description);
    }
}

如何保存到PDF PuppeteerSharp库提供了生成PDF的功能,我们可以使用它来将获取到的图片保存为PDF文件。首先,我们需要创建一个新的工具实例,然后打开一个浏览新的页面,将图片插入到页面中,并使用PuppeteerSharp提供的API来生成PDF文件。

using System;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
        using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
        {
            Headless = true
        });
        var page = await browser.NewPageAsync();
        await page.GoToAsync("https://www.example.com");

        // 将图片插入到页面中
        // ...

        // 使用PuppeteerSharp提供的API生成PDF文件
        await page.PdfAsync("output.pdf");

        await browser.CloseAsync();
    }
}
点赞
收藏
评论区
推荐文章
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Karen110 Karen110
2年前
Python爬虫 | Selenium爬取当当畅销图书排行
01前言上篇文章我们爬取了,心情相当愉悦,今天这篇文章我们使用Selenium来爬取当当网的畅销图书排行。正所谓书中自有黄金屋,书中自有颜如玉,我们通过读书学习来提高自身的才华,自然能有荣华富贵,也自然少不了漂亮小姐姐。02准备工作在爬取数据前,我们需要安装Selenium库以及Chrome浏览器,并配置好Chro
Wesley13 Wesley13
2年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
2年前
mysql中时间比较的实现
MySql中时间比较的实现unix\_timestamp()unix\_timestamp函数可以接受一个参数,也可以不使用参数。它的返回值是一个无符号的整数。不使用参数,它返回自1970年1月1日0时0分0秒到现在所经过的秒数,如果使用参数,参数的类型为时间类型或者时间类型的字符串表示,则是从1970010100:00:0
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
MBR笔记
<bochs:100000000000e\WGUI\Simclientsize(0,0)!stretchedsize(640,480)!<bochs:2b0x7c00<bochs:3c00000003740i\BIOS\$Revision:1.166$$Date:2006/08/1117
Stella981 Stella981
2年前
Linux日志安全分析技巧
0x00前言我正在整理一个项目,收集和汇总了一些应急响应案例(不断更新中)。GitHub地址:https://github.com/Bypass007/EmergencyResponseNotes本文主要介绍Linux日志分析的技巧,更多详细信息请访问Github地址,欢迎Star。0x01日志简介Lin
Wesley13 Wesley13
2年前
FPGA+CPU助力数据中心实现图像处理应用体验与服务成本新平衡
!(https://oscimg.oschina.net/oscnet/b27bc0d4a279e71e209ef9a9520ee00c145.jpg)图片逐渐成为互联网主要的内容构成,相应的图片处理需求也在高速成长,移动应用与用户生产内容(UGC)正在驱动数据中心图像处理的业务负载快速增加。本文深维科技联合创始人兼CEO樊平详细剖析了
Stella981 Stella981
2年前
Hibernate纯sql查询结果和该sql在数据库直接查询结果不一致
问题:今天在做一个查询的时候发现一个问题,我先在数据库实现了我需要的sql,然后我在代码中代码:selectdistinctd.id,d.name,COALESCE(c.count_num,0),COALESCE(c.count_fix,0),COALESCE(c
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
小白学大数据
小白学大数据
Lv1
男 · 亿牛云 · python技术
宁为代码类弯腰,不为bug点提交!
文章
63
粉丝
5
获赞
17