2000万条直播数据,揭秘斗鱼主播生存现状

Aidan075 等级 602 0 0

前言:

《凹凸数读》新文章已发,可以先看数据分析结果再回来看过程:

《2000万直播数据看20万游戏主播能否月入100万>>>>》


2019年7月17日游戏直播平台斗鱼在美国纳斯达克股票交易所成功上市,成为继虎牙直播之后第二家赴美上市的国内直播平台。

7月底斗鱼因为平台主播“乔碧萝殿下”事件再次被推上热搜。

段子手们纷纷调侃成为主播的门槛之低:只需要变声软件+盗图+超级美颜。

那么直播行业真的如同网友们所说的这么简单吗?

主播们的真实生存现状如何?

分析一下。

获取数据

打开斗鱼直播界面,连续点击翻页

Network查看异步请求XHR,找到对应的URL

2000万条直播数据,揭秘斗鱼主播生存现状

get。

2000万条直播数据,揭秘斗鱼主播生存现状

成功获取到对应的URL。

https://www.douyu.com/gapi/rkc/directory/0_0/2  

翻页只变动末尾的最后一个数字。

采用requests+pyquery来爬取。

部分爬虫代码如下。

def get_datas(url):  
    data = []  
    doc = get_json(url)  
    jobs=doc['data']['rl']  
    for job in jobs:  
        dic = {}  
        dic['user_name']=jsonpath.jsonpath(job,'$..nn')[0] #用户名  
        dic['user_id']= jsonpath.jsonpath(job,'$..uid')[0] #用户ID  
        dic['room_name']=jsonpath.jsonpath(job,'$..rn')[0]  #房间名  
        dic['room_id']=jsonpath.jsonpath(job,'$..rid')[0] #房间ID  
        dic['redu']=jsonpath.jsonpath(job,'$..ol')[0] #热度  
        dic['c2name']=jsonpath.jsonpath(job,'$..c2name')[0] #分区  
        dic['time']= stampToTime(time.time())    
        data.append(dic)  
    return data 

剩下就是连续爬取,我设置的是10分钟爬取一次。

将爬取得到的数据存入Mysql中。

#存到Mysql  
from sqlalchemy import create_engine  

engine = create_engine('mysql+mysqldb://root:***密码***@localhost:3306/demo?charset=utf8mb4')  
final_result.to_sql('data_douyu',con=engine, index=False, index_label=False,if_exists='append', chunksize=1000)  

连续爬取了大概七天多时间,最终得到2062万条直播数据。

2000万条直播数据,揭秘斗鱼主播生存现状

数据分析

将数据导入python。

2000万条直播数据,揭秘斗鱼主播生存现状

去重,其实爬虫部分已经设置去重,这里为了保险再来一次,不过事实证明确实没有重复。

因为实际爬取时间是0731下午到0808上午,为了方便后文计算,这里选取0801-0807这连续七天的直播数据。

#去重  
data = data[['c2name', 'redu', 'room_id', 'room_name', 'time','user_id', 'user_name']].drop_duplicates()  

#筛选时间  
data = data.loc[(data['time'] <= '2019-08-07') & (data['time'] >= '2019-08-01')]

我们还需要对主播按照id分组汇总。

先利用groupby分类汇总,再计算增加新列。

data_abc['av_redu'] = data_abc['redu']/data_abc['time_num']  
data_abc['hour'] = data_abc['time_num']/ 42 #每十分钟一次,七天  
data_abc.head()  

2000万条直播数据,揭秘斗鱼主播生存现状

这样我们就又构建了一组以主播为索引的数据。

2000万条直播数据,揭秘斗鱼主播生存现状

也就是说这七天之内,直播过的主播共有23万余人,那么下文让我们看看他们的生存现状吧。

数据可视化

将这23万主播按照平均直播时长和平均直播热度绘制一个散点图。

import seaborn as sns  
import matplotlib as mpl #配置字体  
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体  
mpl.rcParams['axes.unicode_minus']  

plt.figure(figsize=(8,8))  
plt.xticks(fontsize=12)  
plt.yticks(fontsize=12)  

sns.scatterplot(data_test["hour"],data_test["av_redu"],hue=data_test["c2name"])  

结果如下图所示。

2000万条直播数据,揭秘斗鱼主播生存现状

从上图能看出,绝大部分主播都在底部,能够成为大主播的寥寥无几,且热度较高的主播集中于上述的几个热门分区,其他分区主播发展普遍一般。

由于有20多万的主播集中在下方,很难看出他们平均直播时长的分布。

另一方面,主播分化程度较为严重,为了更直观的展现趋势,我们以1万平均热度为分界,分析不同规模的主播每天平均直播时长。

#头部主播  
plt.figure(figsize=(10,6))  
plt.xticks(fontsize=13)  
plt.yticks(fontsize=13)  
sns.distplot(data_abc.loc[(data_abc['av_redu'] > 10000)]["hour"],kde=True,rug=False,color='y')  
plt.show()

2000万条直播数据,揭秘斗鱼主播生存现状

图中可以发现较大的主播每天直播时长集中在5小时左右,这5个小时的游戏并非我们平时玩的那么简单。主播直播时往往既需要全神贯注玩游戏,又要和观众一起互动交流。

而较小主播直播时长则大部分在1小时左右,不能持续直播,导致观众少;观看人数少,主播没动力,久而久之,也就难以出头,形成恶性循环。

上图中有一些异常值,即平均每日直播时长超过20小时的直播间,这样的直播大部分为“一起看”分区,可以24小时连续播放电影电视剧之类的视频,余下都是游戏或者比赛的官方频道,用来循环播放官方视频。

那么主播们大部分在什么时间直播呢?

他们的观众也是同一时间准时观看吗?

2000万条直播数据,揭秘斗鱼主播生存现状

从同一时间段内主播直播与观众观看在线人数可以看出,有两个时段有差异。

一个是晚上21点后至凌晨6点前,以直播为职业的主播往往已经进行了5-6小时高强度不间断的直播,会选择后半夜好好休息一下,而将看直播作为娱乐的观众则躺在床上看到上头;

另一个时段是下午12点左右到18点,观众都正在上班上学,而很多全职主播中午起床吃饭后,正好下午开始了他们的直播。

2000万条数据能分析的当然不止这些,详情请移步。

《2000万直播数据看20万游戏主播能否月入100万>>>>》

大部分主播并非我们想象的那样,时间自由,赚钱容易。每天在线直播的主播人数以十万甚至百万为单位,但真正赢得观众喜爱和自愿刷大量礼物的事实上寥寥无几。一时的流量换不来观众永远的买账,以噱头博出位后如何用内容留住观众,是每个主播在探索的方向。

随着行业监管的加强,直播平台逐渐褪去“泡沫”,流量红利消失,回归理性。“熊猫”已经远走,行业内的竞争更加集中在剩下的头部平台之间,这些平台也更需要探索更优质的内容和更多元的发展,绝不可寄希望于花几千万签约“知名主播”或是炒作“乔碧萝”之类的噱头。

本文相关爬虫代码,仅供学习交流:

#下载链接  
https://t.zsxq.com/iQRjeeY

转载请尽量带上二维码或者结尾注明来源,谢谢了。

2000万条直播数据,揭秘斗鱼主播生存现状

原创不易,点个好看吧

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/dIUNslHuxnd9H_x4fMFEeQ,可扫描二维码进行关注: 2000万条直播数据,揭秘斗鱼主播生存现状 如有侵权,请联系删除。

收藏
评论区

相关推荐

2000万条直播数据,揭秘斗鱼主播生存现状
前言: 《凹凸数读》新文章已发,可以先看数据分析结果再回来看过程: 《2000万直播数据看20万游戏主播能否月入100万》(http://mp.weixin.qq.com/s?__bizMzIxNjgyOTA3NQ&mid2247484088&idx1&snd57ac021af33b83d2e66546384bcea4c&chksm
基于活动选择问题的贪心算法
目录 问题描述:(问题描述%3A) 输入格式(输入格式) 输出格式(输出格式) 算法描述(算法描述与分析) 算法分析(算法分析) 算法图示(图解) 问题描述: Coda从0时刻开始观看直播,到 t 时刻结束。一共有n场直播可被选择,已知所有直播场次的起止时间和主播名称,其中第i场直播从ai时刻开始,
2000万条直播数据,揭秘斗鱼主播生存现状
前言:《凹凸数读》新文章已发,可以先看数据分析结果再回来看过程: 2019年7月17日游戏直播平台斗鱼在美国纳斯达克股票交易所成功上市,成为继虎牙直播之后第二家赴美上市的国内直播平台。 7月底斗鱼因为平台主播“乔碧萝殿下”事件再次被推上热搜。 段子手们纷纷调侃成为主播的门槛之低:只需要变声软件+盗图+超级美颜。那么直播行业真的如同网友们所说的这
巨量星图发布直播间业务流程让买卖更简易
巨量星图直播间业务流程将聚集抖音短视频、今日今日头条和西瓜小视频所有主播资源。此次发布为1.0版本号,早期对外开放抖音主播。现阶段,第一批抖音短视频Top直播间大咖已进驻。顾客根据「我的星图」「直播主播」「抖音主播」点一下,就可以进到。直播间买卖步骤和小视频买卖同样,顾客在网络主播城市广场挑选大咖、选购网络主播并填好每日任务规定,即进行提交订单。履单全过程中
B站直播时间调整说明
直播时间与内容调整 --------- 直播的时间仍然不变,但是直播的内容将会进行如下调整: 1. 讲解与视频录制改为每周的二、四、六进行。因此,相应的视频更新将会减缓。 2. 每周一、三、五,直播将会变为直播进行开源项目工作。直播过程中,将会按照计划为 Newbe.ObjectVisitor、Newbe.Claptrap 和 Ne
JAVA + LR实现apache流媒体的性能测试
最近的一个项目,视频点播系统,使用apache实现的流媒体服务器。其实准确的说叫做伪流(HTTP Pseudo-Streaming),基本原理和概念自行了解吧。 让我简单的描述就是仍然是HTTP下载,播放器播放本地缓存。只不过它也实现了一些和正规流媒体服务类似的功能。视频点播类系统的性能测试,说简单了主要就是模拟大量用户去看视频。服务端监控整体性能,客户端
HTML5音乐播放器(四):播放列表与播放方式
发现播放列表和播放方式切换两个功能是连在一起的,单独一个拿出来说不太合适,所以就都一块弄完了。废话不多说,进入主题,功能的逻辑我是这么设计的: 把整个歌曲文件的信息都写在 json 文件里,获取并生成播放列表。当播放歌曲时,系统会生成当前播放歌曲的引索值_(例如:1,2,表示第二张专辑的第三首歌,这个很重要,歌曲切换都是基于这个引索值的)_,当要播放下一曲
Android Service详解
service作为四大组件值得我们的更多的关注 ======================= 在Android中,Activity主要负责前台页面的展示,Service主要负责需要长期运行的任务。例如,一个从service播放音乐的音乐播放器,应被设置为前台运行,因为用户会明确地注意它的运行.在状态栏中的通知可能会显示当前的歌曲并且允许用户启动一个act
P2P技术如何将实时视频直播带宽降低75%?
> 本文内容来自学霸君资深架构师袁荣喜的技术分享。 1、前言 ==== 实时视频直播经过去年的千播大战后已经成为互联网应用的标配技术,但直播平台的成本却一直居高不下,各个平台除了挖主播、挖网红以外,其背后高额的带宽费用也是他们最大的一块成本。 **现阶段直播技术在传输方面分为两块:** > CDN :负责流媒体的分发传输; > > 连麦系统:负责解
P2P技术如何拯救一家直播网站
![](https://oscimg.oschina.net/oscnet/23810a4a-1fef-4d65-9388-100f4228782b.jpg) > 众所周知运维成本是直播网站最大的成本组成,运维成本则主要体现在带宽,而伴随主播与用户对视频清晰度以及连麦的需求不断提升,直播带宽也在与日俱增。本文整理自学霸君音视频技术负责人袁荣喜在LiveVi
Android 蓝牙相关的广播
### Android 蓝牙相关的广播 监听蓝牙相关的广播并获得相关的信息,蓝牙相关的广播主要集中在`BluetoothAdapter`和`BluetoothDevice`类中, 可以通过在`AndroidManifest.xml`中注册静态广播,也可以通过在代码中注册动态广播,两种形式的广播都可以监听到 需要相关的权限 > <uses-permissi
Android项目实战系列—基于博学谷(七)课程模块(下)
![image](https://www.cztcms.cn/wp-content/uploads/2020/03/%E5%8D%9A%E5%AD%A6%E8%B0%B7.png) > 由于这个模块内容较多,分为上、中、下 三篇博客分别来讲述,请耐心阅读。 * * * ### 课程模块分为四个部分 * \[ \] 课程列表 * \[ \] 课
EasyDSS流媒体服务器软件对数据库Sqlite3和MySQL的同时支持说明
EasyDSS流媒体音视频直播与点播服务器软件,是一套提供一站式的转码、点播、直播、检索、回放、录像下载服务的高性能RTMP/HLS/HTTP-FLV流媒体服务,极大地简化了流媒体相关业务的开发和集成的工作。 其中,**点播功能**主要包含:上传、转码、分发。**直播功能**,主要包含:直播、录像, 直播支持RTMP输入,RTMP/HLS/HTTP-FLV
RxJS之Subject主题 ( Angular环境 )
一 Subject主题 ----------- **Subject是Observable的子类。-** Subject是多播的,允许将值多播给多个观察者。普通的 Observable 是单播的。 在 Subject 的内部,`subscribe` 不会调用发送值的新执行。它只是将给定的观察者注册到观察者列表中,类似于其他库或语言中的 `addListen
TIOBE 11 月编程语言:Java 首次跌出前二;基于Pytorch的Kornia可微分计算机视觉库开源
![](https://static001.geekbang.org/infoq/af/af9f6637b50b09be60b00a42f3812d5e.png) 开发者社区技术周刊又和大家见面了,萌妹子主播为您带来最新一期“开发者技术联播”。让我们一起听听,过去一周有哪些值得我们开发者关注的重要新闻吧。 ![](https://static001.ge