手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

Python进阶者 等级 593 0 0

大家好,我是Python进阶者。

前言

前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。

关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:

盘点常用验证码标注和识别项目线上部署三种方式——VUE前端、Java后端和Python后端部署

Python项目实战篇——常用验证码标注&识别(CNN神经网络模型训练/测试/部署)

Python项目实战篇——常用验证码标注&识别(前端+后端实现高效率数据标注)

Python项目实战篇——常用验证码标注&识别(数据采集/预处理/字符图切割)

Python项目实战篇——常用验证码标注和识别(需求分析和实现思路)

之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬虫+数据分析:手把手教你用Python网络爬虫获取B站UP主10万条数据并用Pandas库进行趣味数据分析

手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

一、背景引入

一提到B站,第一印象就是视频,相信很多小伙伴和我一样,都想着去利用网络爬虫技术获取B站的视频吧,但是B站视频其实没有那么好拿到的,关于B站的视频获取,之前有介绍通过you-get库进行实现,感兴趣的小伙伴可以看这篇文章:You-Get 就是这么强势!

言归正传,经常在B站上学习的小伙伴们可能经常会遇到有的博主连载几十个,甚至几百个视频,尤其像这种编程语言、课程、工具使用等连续的教程,就会出现选集系列,如下图所示。

手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

当然这些选集的字段我们肉眼也是可以看得到的。只是通过程序来实现的话,可能真没有想象的那么简单。那么这篇文章的目标呢,就是通过Python网络爬虫技术,基于selenium库,实现视频选集的获取。

二、具体实现

这篇文章我们用的库是selenium,这个是一个用于模拟用户登录的库,虽然给人的感觉是慢,但是在网络爬虫领域,这个库还是用的蛮多的,用它来模拟登录、获取数据屡试不爽。下面是实现视频选集采集的所有代码,欢迎大家亲自动手实践。


# coding: utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

class Item:
    page_num = ""
    part = ""
    duration = ""

    def __init__(self, page_num, part, duration):
        self.page_num = page_num
        self.part = part
        self.duration = duration

    def get_second(self):
        str_list = self.duration.split(":")
        sum = 0
        for i, item in enumerate(str_list):
            sum += pow(60, len(str_list) - i - 1) * int(item)

        return sum

def get_bilili_page_items(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')  # 设置无界面
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    # options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2,
    #                                           "profile.managed_default_content_settings.flash": 0})

    browser = webdriver.Chrome(options=options)
    # browser = webdriver.PhantomJS()
    print("正在打开网页...")
    browser.get(url)

    print("等待网页响应...")
    # 需要等一下,直到页面加载完成
    wait = WebDriverWait(browser, 10)
    wait.until(EC.visibility_of_element_located((By.XPATH, '//*[@class="list-box"]/li/a')))

    print("正在获取网页数据...")
    list = browser.find_elements_by_xpath('//*[@class="list-box"]/li')
    # print(list)
    itemList = []

    second_sum = 0

    # 2.循环遍历出每一条搜索结果的标题
    for t in list:
        # print("t text:",t.text)
        element = t.find_element_by_tag_name('a')
        # print("a text:",element.text)
        arr = element.text.split('\n')
        print(" ".join(arr))
        item = Item(arr[0], arr[1], arr[2])
        second_sum += item.get_second()
        itemList.append(item)

    print("总数量:", len(itemList))
    # browser.page_source

    print("总时长/分钟:", round(second_sum / 60, 2))
    print("总时长/小时:", round(second_sum / 3600.0, 2))

    browser.close()

    return itemList


get_bilili_page_items("https://www.bilibili.com/video/BV1Eb411u7Fw")

这里用到的选择器是xpath,利用视频示例是B站的《高等数学》同济版 全程教学视频(宋浩老师)视频选集,大家如果想抓取其他视频选集的话,只需要更改上述代码的最后一行的URL链接即可。

三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

这个是因为谷歌驱动版本问题导致的,只需要根据提示,去下载对应的驱动版本即可,驱动下载链接:
https://chromedriver.storage.googleapis.com/index.html

手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)

四、总结

我是Python进阶者。这篇文章主要给大家介绍了B站视频选集内容的获取方法,基于网络爬虫,通过selenium库和xpath选择器进行实现,并且给大家例举了常见问题的处理方法。小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

收藏
评论区

相关推荐

统计字符串中字符出现的次数(Python版)
字符串转list python s 'aabbccd' list1 list(s) 方法一: python list1 'a', 'a', 'b', 'c', 'c', 'c', 'c' dict_cnt {} for value in list1: dict_cntvalue dict_cnt.get(value,
python的这些必备干货知识点,快来看看有没有你不了解的?
Python是当前主流的编程语言之一,其优点有:一:语法简洁,可以让使用者用少量的代码完成相对复杂的效果。二:标准库和第三库多,功能强大;三:站在了人工智能和大数据的风口上;像国内的豆瓣呀,知乎呀等等知名网站都是基于python开发的,而Youtube、Reddit、Dropbpx也是用python的框架开发的。近几年学习python的小伙伴越来越多,那么p
25条很棒的Python一行代码,建议收藏!
自从我用Python编写第一行代码以来,就被它的简单性、出色的可读性和特别流行的一行代码所吸引。 在下面,我将给大家介绍并解释一些Python一行程序。 可能有些你还不知道,但对你未来的Python项目很有用。 ▍1、交换两个变量  a  4 b  5 a,b  b,a  print(a,b)  5,4 让我们通过交换两个变量作为一个简
手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)
大家好,我是Python进阶者。 前言前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬
Java中使用HTTP阻塞式调用服务器API
应用场景:前端页面点击刷新,调用服务器A上Java接口,然后A调用服务器B的后台Python接口实时刷新后台数据库。 在这个场景中会涉及到两个问题:异步,Python服务器压力 (一)解决Python服务器压力 如果Python服务器接口不做任何措施,那么可能会有恶意的访问,从而导致该服务器一直刷新后台数据库。 我的解决方式是:服务器B会提供一串字符
25条很棒的Python一行代码,建议收藏!
点击上方“ **Python爬虫与数据挖掘** ”,进行关注 回复“**书籍**”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 中岁颇好道,晚家南山陲。 自从我用Python编写第一行代码以来,就被它的简单性、出色的可读性和特别流行的一行代码所吸引。 在下面,我将给大家介绍并解释一些Python一行程序。
60个Chrome神器插件大收集:助你快速成为老司机,一键分析网站技术栈
点击蓝色“Python空间”关注我丫 加个“星标”,每天一起快乐的学习 ![](https://oscimg.oschina.net/oscnet/49dbdb348f72afaae96153b798de73f1532.jpg) ##### 乾明 编辑整理  量子位 报道 | 公众号 QbitAI 让WebP图片下载为PNG格式,从G
Anaconda3详细安装使用教程及问题总结
注:本面文章来源于网络,转载请注明来自https://www.jianshu.com/p/026a2c43b081。 ### 1.Anaconda是什么? 简单来说,Anaconda是Python的包管理器和环境管理器。 _先来解决一个初学者都会问的问题:我已经安装了Python,那么为什么还需要Anaconda呢?原因有以下几点:_ 1. Ana
Asp.Net Core和Django如何选择
一、前言 ---- 最近经常听说“人生苦短,我选python”这句话,为什么python拥有如此多的粉丝,她和c#、java静态语言有哪些区别和优略呢?本篇将对python、c#主流的web框架Django和Asp.Net Core做一些分析,带给大家更多的技术认知。 ### 什么是Django Django是使用python语言开发的一套web框架,
B站上的Python学习资源,给你整理好了
https://www.toutiao.com/a6801291483048575491/?tt\_from=weixin&utm\_campaign=client\_share&wxshare\_count=1&timestamp=1583567582&app=news\_article&utm\_source=weixin&utm\_medium=tou
Django.1
**Django官方网站:https://www.djangoproject.com/** **使用终端创建Django文件** * 创建工程 * django-admin startproject XXX * 创建应用 * python manage.py startapp YYY
Python 学习之路(四)
Python 学习之路(四) ============== > 以下所用的是Python 3.6 一、时间模块(time 模块) --------------- > 实例环境为Ubuntu 14.04 python 3.6 导入time模块。注:可以在命令行输入: help(time.方法名字)查看帮助文档,例:help(time.localtime)
Python 运行原理
原文链接: [Python 运行原理](https://my.oschina.net/ahaoboy/blog/1538393) 1\. 简单的例子 --------- 先从一个简单的例子说起,包含了两个文件 foo.py 和 demo.py [foo.py] def add(a, b): return a + b
Python技巧之使用多个集合进行关键字传参
Python 3.5+ 允许在函数单次调用中使用多个集合进行关键字传参。语法为在变量前使用双星号“\*\*”。 # Python 3.5+ allows passing multiple sets # of keyword arguments ("kwargs") to a # function within a single ca
Python爬取暴走漫画动态图
最近再之乎上看到比较好的Python爬虫教程,看过之后对爬虫有了大概的了解,随后自己写了个爬取[暴走漫画](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fbaozoumanhua.com%2Fcatalogs%2Fgif)动图的爬虫练练手,另外附上[Python爬虫教程](https://w