小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

Aidan075 等级 510 0 0

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

作者:朱小五

源自:凹凸数据

看到标题,

啪的一下你就进来了吧!

如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?

印度:没错正是在下

那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。

不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健身房里的年轻人是如何不讲武德,偷袭他的故事。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

在视频里,他控诉踢馆的年轻人 “ 不讲武德 ” ,劝他 “ 耗子尾汁 ” 。可以作为B站入站题目,建议全文背诵。

B站这个小机灵鬼,甚至还给马老师专门开了专栏,这为我们后续爬取数据也带来了便利。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

跟平时爬取B站不太一样,在B站的马保国专栏下,F12可以轻松找到接口。

https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30  

解析JSON后我们需要的数据都可以获得。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

其中要提到一点,url中的offest从解析上一个url的json中获取,如如下图所示。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

通过简短的爬虫代码,

很快啊,很快就爬取了1.4万条马保国先生的视频数据。

def get_data(url,headers):  
    data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])  
    html = requests.get(url,headers=headers).content  
    data = json.loads(html.decode('utf-8'))  
    offset = data['data']['offset']  
    print(offset)  
    for j in range(30):  
        data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],  
                            'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],  
                            'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],  
                            'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)  
    return(offset,data_m)  

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

1.4万条数据预览

我们先进行简单的数据整理(播放量有的是万为单位)后,将1.4万个视频按照播放量和点赞量制作了一个散点图。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

可以看到什么才是“顶流”的话题,播放量几百万,点赞量几十万的相关视频特别多。

按照播放量排序一下。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

第一名就是今年一月份相声泰斗马老师经典单口相声!!!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

那按照点赞量呢?小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

第一名是来自鬼畜up主的伊丽莎白鼠“武 林 高 手”!

而懂王与马老师的联动表现也很优秀!

其中几个特效向的表现更是突出!

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

由于马老师的语录太过经典,我决定再补充爬一下它的弹幕。

# 绘制词云图  
stylecloud.gen_stylecloud(text=' '.join(text1),   
                          collocations=False,  
                          font_path=r'‪C:\Windows\Fonts\msyh.ttc',  
                          icon_name='fas fa-play-circle',  
                          size=653,  
                          output_name='马保国词云图.png')  

Image(filename='马保国词云图.png') 

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

耗子尾汁真是门面担当!

婷婷、英国大理石、塔门说也夹杂其中。

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

最后小五想推荐几个视频:

1、比较喜欢的人力VOCALOID

2、技术向的标杆,重点是小芃授人以渔!

3、最后观察者网的视频给大家呈现了一个更多元的,“三维立体浑元”的马老师,甚至还发掘出了一些闪光点,而非一味的玩梗。

本文转转自微信公众号快学Python原创https://mp.weixin.qq.com/s/wLna1-7urqXzvVryKLmqyQ,可扫描二维码进行关注: 小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析 如有侵权,请联系删除。

收藏
评论区

相关推荐

统计字符串中字符出现的次数(Python版)
字符串转list python s 'aabbccd' list1 list(s) 方法一: python list1 'a', 'a', 'b', 'c', 'c', 'c', 'c' dict_cnt {} for value in list1: dict_cntvalue dict_cnt.get(value,
小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
作者:朱小五 源自:凹凸数据 看到标题, 啪的一下你就进来了吧! 如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁? 印度:没错正是在下 那必须
python爬虫之数据提取Xpath(爬取起点中文网案例)
(https://blog.csdn.net/sjjsaaaa/article/details/111293732)Xpath 详细的Xpath介绍手册—— https://www.w3school.com.cn/xpa
算法笔记:B树
B树广泛应用于各种文件系统,文件系统中,数据都是按照数据块来进行读取操作。结合二叉树的优点和文件系统的特点,于是就有了B树: btree(https://imghelloworld.osscnbeijing.aliyuncs.com/imgs/ae3caa193bc4c55f0519114b15313721.png) B树当中每个节点存储
原来Python绘图也可以这么漂亮,这次真的是学习到了!
(https://imghelloworld.osscnbeijing.aliyuncs.com/8830803f033eeed85783e9058cf08968.png) 作者:朱小五 来源:快学Python 👆人生苦短,快学Python! 最近看了一篇文章《一个牛逼的Python 可视化库:PyG2Plot》,可惜只是简单介
被“词云”包围的冰冰会更好看吗?安排
(https://imghelloworld.osscnbeijing.aliyuncs.com/b299933deefc692934e8cc6141ab3894.png) 大家好,我是小五🐶 昨天「凹凸数据」发了一篇张同学投稿的文章《用Python爬取王冰冰vlog弹幕并制作词云(https://mp.weixin.qq.com/
小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
看到标题, 啪的一下你就进来了吧!如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?印度:没错正是在下那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述
怎么学python,学习python的正确姿势
Python是一门相对来说比较简单的编程语言,自学是非常轻松的。首先得明白python有哪些发展方向 需要了解这个这门语言 而不是听说 这个高薪资 容易学习最好的学习状态就是出于兴趣 兴趣是最好的老师 当然对钱感兴趣也是可以的。一、人工智能二、大数据三、网络爬虫工程师四、Python web全栈工程师五、Python自动化运维六、Python自动化测试再来说
多人说Python简单,但是如何入门Python并精通?
一般而言,Python几个月就可以开始使用了。假如你几个月没入门,那肯定是方法不对,或者是偷懒.我在公众号里有一篇文章详细写了“初学者别上爬虫”,爬虫虽然很有趣,但不适合于小白用户。以下是2点:多人说Python简单,但是如何入门Python并精通?Python再简单再通俗,它也是一门语言,掌握一门语言绝非一朝一夕,我个人不推荐初学者上岸学习爬虫,我举一个很
玩转python爬虫
     近几年来,python的热度一直特别火!大学期间,也进行了一番深入学习,毕业后也曾试图把python作为自己的职业方向,虽然没有如愿成为一名python工程师,但掌握了python,也让我现如今的工作开展和职业发展更加得心应手。这篇文章主要与大家分享一下自己在python爬虫方面的收获与见解。   
盘点最重要的7个Python库
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书导读:对于那些对Python数据生态系统不太熟悉的人士,我将简要地介绍一部分重要的库。 作者:韦斯·麦金尼(Wes McKinney)译者:徐敬来源:大数据DT(ID:hzdashuju) 01 NumPy http://numpy
刷爆全网的动态条形图,原来5行Python代码就能实现!
说起动态图表,最火的莫过于动态条形图了。 在B站上搜索「数据可视化」这个关键词,可以看到很多与动态条形图相关的视频。 好多视频都达到了上百万的播放量,属实厉害。 目前网上实现动态条形图现成的工具也很多。 比如数可视的「花火hanabi」,嫡数的「镝数图表」,以及国外网站「Flourish」。 但是作为一名Pythoner,当然是想要研究一下如何
小红书很难爬?最新爬取方法教给你啦~
Python进击者第184篇原创文章前言大家好,我是Kuls。之前写的那篇App抓包软件charles的配置说过,超过30在看,马上更下一篇。所以加班加点给大家写了今天这篇文章。本文将会带着大家完完整整的爬取小红书的全过程 小红书需要做的前提工作就是装配好mitmproxy具体的配置过程,我建议大家参照崔大写的来进行安装https://zhuanlan.z
25条很棒的Python一行代码,建议收藏!
自从我用Python编写第一行代码以来,就被它的简单性、出色的可读性和特别流行的一行代码所吸引。 在下面,我将给大家介绍并解释一些Python一行程序。 可能有些你还不知道,但对你未来的Python项目很有用。 ▍1、交换两个变量  a  4 b  5 a,b  b,a  print(a,b)  5,4 让我们通过交换两个变量作为一个简
小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析
看到标题,啪的一下你就进来了吧!如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?印度:没错正是在下那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健