小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

Aidan075 等级 898 0 0
标签: httpspngpython

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

看到标题,

啪的一下你就进来了吧!

如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?

印度:没错正是在下

那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。

不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健身房里的年轻人是如何不讲武德,偷袭他的故事。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

在视频里,他控诉踢馆的年轻人 “ 不讲武德 ” ,劝他 “ 耗子尾汁 ” 。可以作为B站入站题目,建议全文背诵。

B站这个小机灵鬼,甚至还给马老师专门开了专栏,这为我们后续爬取数据也带来了便利。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

跟平时爬取B站不太一样,在B站的马保国专栏下,F12可以轻松找到接口。

https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30  

解析JSON后我们需要的数据都可以获得。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

其中要提到一点,url中的offest从解析上一个url的json中获取,如如下图所示。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

通过简短的爬虫代码,

很快啊,很快就爬取了1.4万条马保国先生的视频数据。

def get_data(url,headers):  
    data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])  
    html = requests.get(url,headers=headers).content  
    data = json.loads(html.decode('utf-8'))  
    offset = data['data']['offset']  
    print(offset)  
    for j in range(30):  
        data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],  
                            'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],  
                            'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],  
                            'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)  
    return(offset,data_m)  

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

1.4万条数据预览

我们先进行简单的数据整理(播放量有的是万为单位)后,将1.4万个视频按照播放量和点赞量制作了一个散点图。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

可以看到什么才是“顶流”的话题,播放量几百万,点赞量几十万的相关视频特别多。

按照播放量排序一下。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

第一名就是今年一月份相声泰斗马老师经典单口相声!!!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

那按照点赞量呢?小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

第一名是来自鬼畜up主的伊丽莎白鼠“武 林 高 手”!

而懂王与马老师的联动表现也很优秀!

其中几个特效向的表现更是突出!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

由于马老师的语录太过经典,我决定再补充爬一下它的弹幕。

# 绘制词云图  
stylecloud.gen_stylecloud(text=' '.join(text1),   
                          collocations=False,  
                          font_path=r'‪C:\Windows\Fonts\msyh.ttc',  
                          icon_name='fas fa-play-circle',  
                          size=653,  
                          output_name='马保国词云图.png')  

Image(filename='马保国词云图.png') 

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

耗子尾汁真是门面担当!

婷婷、英国大理石、塔门说也夹杂其中。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

最后小五想推荐几个视频:

1、比较喜欢的人力VOCALOID

2、技术向的标杆,重点是小芃授人以渔!

3、最后观察者网的视频给大家呈现了一个更多元的,“三维立体浑元”的马老师,甚至还发掘出了一些闪光点,而非一味的玩梗。

福利时间

介绍一本📕:《Django实战 Python Web典型模块与项目开发》Python Web项目开发框架,从基础知识、典型模块到项目开发,面向实战,直击Django开发痛点,提高开发效率。点击下图可看详情/购买!👇

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

感谢人民邮电出版社的支持!「凹凸数据」300积分兑换🎁!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/HJ-VFnrS4-yrEBO8bfWptw,可扫描二维码进行关注: 小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析 如有侵权,请联系删除。

收藏
评论区

相关推荐

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
作者:朱小五 源自:凹凸数据 看到标题, 啪的一下你就进来了吧! 如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁? 印度:没错正是在下 那必须
被“词云”包围的冰冰会更好看吗?安排
(https://imghelloworld.osscnbeijing.aliyuncs.com/b299933deefc692934e8cc6141ab3894.png) 大家好,我是小五🐶 昨天「凹凸数据」发了一篇张同学投稿的文章《用Python爬取王冰冰vlog弹幕并制作词云(https://mp.weixin.qq.com/
小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
看到标题, 啪的一下你就进来了吧!如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?印度:没错正是在下那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述
小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
看到标题,啪的一下你就进来了吧!如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?印度:没错正是在下那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健
手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)
大家好,我是Python进阶者。 前言前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器、HTML解析器、数据存储器三大模块: HTML下载器:利用requests模块下载HTML网页; HTML解析器:利用re正则表达
10行Python代码自动清理电脑内重复文件,解放双手!
点击上方“ **Python爬虫与数据挖掘** ”,进行关注 回复“**书籍**”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 世间行乐亦如此,古来万事东流水。 [![](https://oscimg.oschina.net/oscnet/da5385ec-bd59-492a-a127-c14a1a5b807c.jpg)](h
25条很棒的Python一行代码,建议收藏!
点击上方“ **Python爬虫与数据挖掘** ”,进行关注 回复“**书籍**”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 中岁颇好道,晚家南山陲。 自从我用Python编写第一行代码以来,就被它的简单性、出色的可读性和特别流行的一行代码所吸引。 在下面,我将给大家介绍并解释一些Python一行程序。
Python Scrapy 实战
Python Scrapy ============= 什么是爬虫? ------ 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 Python 爬虫 --------- 在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性
Python web开发从入门到放弃
点击上方“**Python爬虫与数据挖掘**”,进行关注 回复“**书籍**”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 无为之用方为大用。 ![](https://oscimg.oschina.net/oscnet/f64430c27950bcccce040bb032ea65e73a5.jpg) 越来越多的同学知道我在做
Python 爬虫:把廖雪峰的教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 Python 教程 爬下来做成 PDF 电子书方便大家离线阅读。 开始写爬虫前,我们先来分析一下该网站[1](https://www.oschina.net/
Python数据可视化:折线图、柱状图、饼图代码
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 作者:godweiyang 来源:算法码上来 **Python爬虫、数据分析、网站开发等案例教程视频免费在线观看** https://space.bilibili.com/523606542 ![](https://oscimg.oschi
Python爬取暴走漫画动态图
最近再之乎上看到比较好的Python爬虫教程,看过之后对爬虫有了大概的了解,随后自己写了个爬取[暴走漫画](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fbaozoumanhua.com%2Fcatalogs%2Fgif)动图的爬虫练练手,另外附上[Python爬虫教程](https://w
Python爬虫
Python爬虫-xpath ============== * Python爬虫-xpath * 说明 * 再说明 * 插件推荐 * 语法讲述 * 举栗子 * 代码里使用 * 实战句子迷 * 需要的总结: 说明 -- 关于Python爬虫请求数据方面的知
Python自带爬虫库urllib使用大全
击上方“ **Python爬虫与数据挖掘** ”,进行关注 回复“**书籍**”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 门前冷落鞍马稀,老大嫁作商人妇。 这篇文章主要来讲解下Python自带的爬虫库urllib常见用法,主要围绕urllib定义、urllib的常用模块和urllib+lxml爬虫案例三个部分进行展开。