拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

LogicAegis
• 阅读 1853

原文:http://tecdat.cn/?p=4115

以下是摘自虎扑的官方介绍:

虎扑是为年轻男性服务的专业网站,涵盖篮球、足球、F1、NFL等赛事的原创新闻专栏视频报道,拥有大型的生活/影视/电竞/汽车/数码网上交流社区,聊体育谈兴趣尽在虎扑。

二、数据说明

使用的数据来源:

2018/1/1~1/19 两周半内虎扑论坛步行街各子版块的所有帖子,去除关注度极低的帖子,总数为3.3W+;

上述3.3W+篇帖子中主干道版块的回复用户的个人信息,去重后用户总数为2.3W+。

三、虎扑论坛分析

1.各版块活跃度分析

在虎扑社区由10个分论坛,380个子版块构成,日发帖量达到70W+,其中哪一个最活跃呢?通过对比每个版块发帖量,可以发现,在大的分论坛中 【装备论坛】的发帖量最高,其次是【步行街】和【NBA】;在380个子板块中,【运动装备】]和【交易区】最热门,其次是【步行街主干道】和【湿乎乎的话题】;其中,【装备论坛】的发帖占比近7成,远高于其他,而【步行街】又高于【NBA】两倍。

可以看出,交易属性和社交属性是虎扑维持社区热度和用户的活跃度的关键。

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

各大分论坛发帖量占比

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

各子版块发帖量占比

2.步行街发帖内容分析

除了交易版块,【步行街】和【NBA】是虎扑活跃度最高的版块,【NBA论坛】的话题一般围绕赛事展开,而【步行街】的社交属性比较强,通过对【步行街】的分析,可以看到在体育赛事之余,虎扑的会员都在关注些什么。

...

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

四、虎扑用户分析

1.用户性别

....

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

2.用户所在地

.....

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

3. 用户的运动爱好

......

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

4.用户日停留时长

....

拓端数据(tecdat)|虎扑社区论坛数据爬虫分析报告

五、分析总结

总体上看,虎扑会员以年轻的男性和在校大学生为主,他们喜欢篮球等体育运动,关注NBA,英超等球类联赛;但在步行街社区,他们的话题不仅限于体育,八卦热点,情感咨询等都是他们关注的内容;并且他们每天在虎扑停留时间较长,可以说虎扑的内容很好的抓住了目前的用户群体。

点赞
收藏
评论区
推荐文章
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Karen110 Karen110
4年前
实战|手把手教你用Python爬取存储数据,还能自动在Excel中可视化!
大家好,在之前我们讲过如何用Python构建一个带有GUI的爬虫小程序,很多本文将迎合热点,延续上次的NBA爬虫GUI,探讨如何爬取虎扑NBA官网数据。 并且将数据写入Excel中同时自动生成折线图,主要有以下几个步骤。本文将分为以下两个部分进行讲解在虎扑NBA官网球员页面中进行爬虫,获取球员数据。清洗整理爬取的球员数据,对其进行可视化。
Wesley13 Wesley13
4年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Wesley13 Wesley13
4年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Stella981 Stella981
4年前
Prometheus监控学习笔记之PromQL简单示例
0x00简单的时间序列选择返回度量指标http_requests_total的所有时间序列样本数据:http_requests_total返回度量指标名称为http_requests_total,标签分别是job"apiserver",handler"/api/comments"
Stella981 Stella981
4年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Easter79 Easter79
4年前
SpringBoot整合Redis乱码原因及解决方案
问题描述:springboot使用springdataredis存储数据时乱码rediskey/value出现\\xAC\\xED\\x00\\x05t\\x00\\x05问题分析:查看RedisTemplate类!(https://oscimg.oschina.net/oscnet/0a85565fa
Wesley13 Wesley13
4年前
R语言代写生存分析可视化分析
完整原文链接:http://tecdat.cn/?p5438(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Ftecdat.cn%2F%3Fp%3D5438)
Wesley13 Wesley13
4年前
R语言代写线性混合效应模型实战案例
原文链接: http://tecdat.cn/?p3015(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Ftecdat.cn%2F%3Fp%3D3015)