Asyncpy协程爬虫框架

MongoDB文档
• 阅读 1907

Asyncpy是我基于asyncio和aiohttp开发的一个轻便高效的爬虫框架,采用了scrapy的设计模式,参考了github上一些开源框架的处理逻辑。


github: https://github.com/lixi5338619/asyncpy
pypi: https://pypi.org/project/asyncpy/

Asyncpy协程爬虫框架
asyncpy的架构及流程
Asyncpy协程爬虫框架


安装需要的环境

python版本需要 >=3.6
依赖包: [ 'lxml', 'parsel','docopt', 'aiohttp']

安装命令:

pip install asyncpy

如果安装报错:

ERROR: Could not find a version that satisfies the requirement asyncpy (from versions: none)
ERROR: No matching distribution found for asyncpy

请查看你当前的python版本,python版本需要3.6以上。

还无法下载的话,可以到 https://pypi.org/project/asyncpy/ 下载最新版本的 whl 文件。
点击Download files,下载完成之后使用cmd安装:
pip install asyncpy-版本-py3-none-any.whl


创建一个爬虫文件

在命令行输入asyncpy --version 查看是否成功安装。

创建demo文件,使用cmd命令:

asyncpy genspider demo

全局settings

settings配置 简介
CONCURRENT_REQUESTS 并发数量
RETRIES 重试次数
DOWNLOAD_DELAY 下载延时
RETRY_DELAY 重试延时
DOWNLOAD_TIMEOUT 超时限制
USER_AGENT 用户代理
LOG_FILE 日志路径
LOG_LEVEL 日志等级
USER_AGENT 全局UA
PIPELINES 管道
MIDDLEWARE 中间件

如果要启动全局settings的话,需要在spider文件中通过settings_attr 传入settings:

import settings
class DemoSpider(Spider):
    name = 'demo'
    start_urls = []
    settings_attr = settings

自定义settings

如果需要对单个爬虫文件进行settings配置,可以像scrapy一样在爬虫文件中引入 custom_settings
他与settings_attr 并不冲突。

class DemoSpider2(Spider):
    name = 'demo2'

    start_urls = []

    concurrency = 30                                # 并发数量
    
    custom_settings = {
        "RETRIES": 1,                               # 重试次数
        "DOWNLOAD_DELAY": 0,                        # 下载延时
        "RETRY_DELAY": 0,                           # 重试延时
        "DOWNLOAD_TIMEOUT": 10,                     # 超时时间
        "LOG_FILE":"demo2.log"                        # 日志文件
            }

生成日志文件

在settings文件中,加入:

LOG_FILE = './asyncpy.log'
LOG_LEVEL = 'DEBUG'

如果需要对多个爬虫生成多个日志文件,

需要删除settings中的日志配置,在custom_settings中重新进行配置。

自定义Middleware中间件

在创建的 demo_middleware 文件中,增加新的功能。
可以根据 request.meta 和spider 的属性进行针对性的操作。

from asyncpy.middleware import Middleware

middleware = Middleware()

@middleware.request
async def UserAgentMiddleware(spider, request):
    if request.meta.get('valid'):
        print("当前爬虫名称:%s"%spider.name)
        ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36"
        request.headers.update({"User-Agent": ua})


@middleware.request
async def ProxyMiddleware(spider, request):
    if spider.name == 'demo':
        request.aiohttp_kwargs.update({"proxy": "http://123.45.67.89:0000"})

方法1、去settings文件中开启管道。(版本更新,暂时请选择2方法)

MIDDLEWARE = [
'demo_middleware.middleware',
            ]

方法2、在start()传入middleware:

from middlewares import middleware
DemoSpider.start(middleware=middleware)

自定义Pipelines管道

如果你定义了item(目前只支持dict字典格式的item),并且settings 里面 启用了pipelines 那么你就可以在pipelines 里面 编写 连接数据库,插入数据的代码。
在spider文件中:

     item = {}
     item['response'] = response.text
     item['datetime'] = '2020-05-21 13:14:00'
     yield item

在pipelines.py文件中:

class SpiderPipeline():

    def __init__(self):
        pass

    def process_item(self, item, spider_name):
        pass

方法1、settings中开启管道:(版本更新,暂时请选择2方法)

PIPELINES = [
'pipelines.SpiderPipeline',
            ]

方法2、在start()传入pipelines:

from pipelines import SpiderPipeline
DemoSpider.start(pipelines=SpiderPipeline)

Post请求 重写start_requests

如果需要直接发起 post请求,可以删除 start_urls 中的元素,重新 start_requests 方法。


解析response

采用了scrapy中的解析库parse,解析方法和scrapy一样,支持xpath,css选择器,re。
简单示例:
xpath("//div[id = demo]/text()").get() ----- 获取第一个元素

xpath("//div[id = demo]/text()").getall() ----- 获取所有元素,返回list

启动爬虫

在spider文件中通过 类名.start()启动爬虫。
比如爬虫的类名为DemoSpider

DemoSpider.start()

启动多个爬虫

这里并没有进行完善,可以采用多进程的方式进行测试。

from Demo.demo import DemoSpider
from Demo.demo2 import DemoSpider2
import multiprocessing

def open_DemoSpider2():
    DemoSpider2.start()

def open_DemoSpider():
    DemoSpider.start()

if __name__ == "__main__":
    p1 = multiprocessing.Process(target = open_DemoSpider)
    p2 = multiprocessing.Process(target = open_DemoSpider2)
    p1.start()
    p2.start()

特别致谢 : Scrapy、Ruia、Looter、asyncio、aiohttp


更多详细内容可参考demo,链接: Asyncpy使用文档

感兴趣可以去 github 点个star ,感谢大家!

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
SpringBoot学习:整合shiro自动登录功能(rememberMe记住我功能)
首先在shiro配置类中注入rememberMe管理器!复制代码(https://oscimg.oschina.net/oscnet/675f5689159acfa2c39c91f4df40a00ce0f.gif)/cookie对象;rememberMeCookie()方法是设置Cookie的生成模
Wesley13 Wesley13
3年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Easter79 Easter79
3年前
SpringBoot学习:整合shiro自动登录功能(rememberMe记住我功能)
首先在shiro配置类中注入rememberMe管理器!复制代码(https://oscimg.oschina.net/oscnet/675f5689159acfa2c39c91f4df40a00ce0f.gif)/cookie对象;rememberMeCookie()方法是设置Cookie的生成模
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这