Node.js爬虫实战 - 爬你喜欢的

Python教主
• 阅读 4217

前言

今天没有什么前言,就是想分享些关于爬虫的技术,任性。来吧,各位客官,里边请...

开篇第一问:爬虫是什么嘞?

首先咱们说哈,爬虫不是“虫子”,姑凉们不要害怕。

爬虫 - 一种通过一定方式按照一定规则抓取数据的操作或方法。

开篇第二问:爬虫能做什么嘞?

来来来,谈谈需求

产品MM:

  1. 爱豆的新电影上架了,整体电影评价如何呢?
  2. 暗恋的妹子最近又失恋了,如何在她发微博的时候第一时间知道发了什么,好去呵护呢?
  3. 总是在看小说的时候点到广告?总是在看那啥的时候点出来,澳xx场又上线啦?
  4. 做个新闻类网站没有数据源咋办?

研发GG:

爬虫随时准备为您服务!

  1. 使用爬虫,拉取爱豆视频所有的评价,导入表格,进而分析评价
  2. 使用爬虫,加上定时任务,拉取妹子的微博,只要数据有变化,接入短信或邮件服务,第一时间通知
  3. 使用爬虫,拉取小说内容或xxx的视频,自己再设计个展示页,perfect!
  4. 使用爬虫,定时任务,拉取多个新闻源的新闻,存储到数据库

开篇第三问:爬虫如何实现嘞?

实现爬虫的技术有很多,如python、Node等,今天胡哥给大家分享使用Node做爬虫:爬取小说网站-首页推荐小说

爬取第一步-确定目标

目标网站:https://www.23us.so
Node.js爬虫实战 - 爬你喜欢的

我们要获取排行榜中六部小说的:书名、封面、以及小说书籍信息对应的地址(后续获取小说完整信息)

爬取第二步-分析目标特点

网页的内容是由HTML生成的,抓取内容就相当找到特定的HTML结构,获取该元素的值。

打开网页调试控制台,查看元素HTML结构。

Node.js爬虫实战 - 爬你喜欢的

注意观察页面HTML的结构,排行榜推荐的小说的HTML结构是

bdo#s-dd 元素
    dd 子元素 - 每一部小说
        a 目录信息
            img 封面
        a 小说名称

爬取第三步-弄丫的

工具善其事必先利其器,准备好趁手的兵器!

superagent

模拟客户端发送网络请求,可设置请求参数、header头信息
npm install superagent -D

cheerio

类jQuery库,可将字符串导入,创建对象,用于快速抓取字符串中的符合条件的数据
npm install cheerio -D

项目目录:

node-pachong/
  - index.js
  - package.json
  - node_modules/

上代码:

// node-pachong/index.js
/**
 * 使用Node.js做爬虫实战
 * author: justbecoder <justbecoder@aliyun.com>
 */

// 引入需要的工具包
const sp = require('superagent');
const cheerio = require('cheerio');

// 定义请求的URL地址
const BASE_URL = 'http://www.23us.so';

// 1. 发送请求,获取HTML字符串
(async () => {
  let html = await sp.get(BASE_URL);
  
  // 2. 将字符串导入,使用cheerio获取元素
  let $ = cheerio.load(html.text);
  
  // 3. 获取指定的元素
  let books = []
  $('#s_dd dd').each(function () {
    let info = {
      link: $(this).find('a').eq(0).attr('href'),
      name: $(this).find('a').eq(1).text(),
      image: $(this).find('img').attr('src')
    }
    books.push(info)
  })
  console.log(books)
})()
友情提醒:每个网站的HTML结构是不一样,在抓取不同网站的数据时,要分析不同的解构,才能百发百中。

效果图:
Node.js爬虫实战 - 爬你喜欢的

获取到信息之后,做接口数据返回、存储数据库,你想干啥都行...

源码获取

关注胡哥有话说公众号,回复“爬虫”,即可获取源码地址。

后记

以上就是胡哥今天给大家分享的内容,喜欢的小伙伴记得收藏转发、点击右下角按钮在看,推荐给更多小伙伴呦,欢迎多多留言交流...

胡哥有话说,一个有技术,有情怀的胡哥!京东开放平台首席前端攻城狮。与你一起聊聊大前端,分享前端系统架构,框架实现原理,最新最高效的技术实践!

长按扫码关注,更帅更漂亮呦!关注胡哥有话说公众号,可与胡哥继续深入交流呦!

Node.js爬虫实战 - 爬你喜欢的

点赞
收藏
评论区
推荐文章
Karen110 Karen110
4年前
Python爬虫 | 批量爬取今日头条街拍美图
专栏作者:霖hero,在职爬虫工程师,熟悉JS逆向与分布式爬虫。喜欢钻研,热爱学习,乐于分享。公众号后台回复入群,拉你进技术群与大佬们近距离交流。01前言大家好,我是J哥🚀在以前的文章中我们学了Ajax数据爬取,这篇文章我们以今日头条为例,通过分析Ajax请求来抓取今日头条的街拍美图,并将图片下载到本地保存下来。准备好没,我们现在开始!0
Irene181 Irene181
4年前
3000字 “婴儿级” 爬虫图文教学 | 手把手教你用Python爬取 “实习网”!
1\.为"你"而写这篇文章,是专门为那些"刚学习"Python爬虫的朋友,而专门准备的文章。希望你看过这篇文章后,能够清晰的知道整个"爬虫流程"。从而能够"独立自主"的去完成,某个简单网站的数据爬取。好了,咱们就开始整个“爬虫教学”之旅吧!2\.页面分析①你要爬取的网站是什么?首先,我们应该清楚你要爬去的网站是什么?由于这里我们想要
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
胡哥有话说 胡哥有话说
4年前
Node.js爬虫实战 - 爬你喜欢的
前言今天没有什么前言,就是想分享些关于爬虫的技术,任性。来吧,各位客官,里边请...开篇第一问:爬虫是什么嘞?首先咱们说哈,爬虫不是“虫子”,姑凉们不要害怕。爬虫一种通过一定方式按照一定规则抓取数据的操作或方法。开篇第二问:爬虫能做什么嘞?来来来,谈谈需求产品MM:1.爱豆的新电影上架了,整体电影评价如何呢?2.暗
分享如何使用java写个小爬虫
爬虫行业的兴起是大数据时代下必须的产物,大家学习阿爬虫肯定是为了爬取有价值的数据信息。关于爬虫的基础知识我们这里不进行阐述,今天我们就只是进行一个简单的爬虫实践。那首先我们就需要确定下我们的目标网站,这里我们就以一些房产信息的网站为例统计一些信息。关于爬虫中的一系列反爬问题我们也不在这里做深入的了解,都是学习爬虫的必备知识,最简单的就是在访问过程中我们肯定会
Aimerl0 Aimerl0
4年前
Python网络爬虫与信息提取
title:Python网络爬虫与信息提取date:2020121001:00:23tags:Pythoncategories:学习笔记写在前面不知道写啥其实说实话TOC网络爬虫之规则安装requests库cmd命令行打开输入pip3installrequests,等待即可简单测试,爬一下bkjwpythonimportrequ
Stella981 Stella981
3年前
Node.js爬虫实战
前言今天没有什么前言,就是想分享些关于爬虫的技术,任性。来吧,各位客官,里边请...开篇第一问:爬虫是什么嘞?首先咱们说哈,爬虫不是“虫子”,姑凉们不要害怕。爬虫 一种通过一定方式按照一定规则抓取数据的操作或方法。开篇第二问:爬虫能做什么嘞?
Wesley13 Wesley13
3年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Stella981 Stella981
3年前
Linux自动检测网站心跳通知shell脚本
!/bin/bashLIST("http://xxxx.com")NAME("评价系统getwindowList接口")for((i0;i<${LIST@};i))doHTTP_CODEcurlo/dev/nullsw"%{http_code}""${LIST
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0