Python爬取4000条猫眼评论,带你围观2021最烂院线电影

Aidan075
• 阅读 1085

大家好,我是小五🐶

之前对挺多典型影视作品做过数据解读,有好片也有烂片。

烂片能烂的让人记住的其实也不多,比如《富春山居图》、《上海堡垒》、《爵迹》之类。它们往往头顶着豆瓣2~3的评分,然后引发各种争议讨论,但其目标人群(明星粉丝)还是愿意掏腰包支持的。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

大概一年前,我曾经写的【看韩国人如何评价韩国电影《寄生虫》?】一文中,就提到了一个观点。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。

3年后,《爱情公寓》大电影终于后继有人。一部打着开心麻花团队旗号的电影,玩起了诈骗式营销,喜获猫眼评分3.2

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

在我的印象里,大部分电影在豆瓣可能6分左右,在猫眼上8分多。

那猫眼3.2分,究竟是什么概念呢?

这么说吧,毕志飞导演的神作——《逐梦演艺圈》即使在豆瓣上逼近2分!

但猫眼评分还有6.8分呢。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

今天小五就带大家扒一扒这部2021最烂院线电影——《日不落酒店》。

爬虫大法好

这次爬虫目标选取了猫眼,原因有二:一是目前豆瓣只能获取500条评论,二是这次最大的争议竟然出现在猫眼评论区

首先,我们来爬取猫眼电影上的评论数据,但网页版只能看到猫眼上的几条评论,所以我们要借助别人抓取的app接口来爬取,我发现小二之前做过类似的爬虫,就参考了一番。

接口格式如下:

http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=xxx  

两个参数说明如下:[1]

  • movieid:网站中每部影片的唯一 id

  • startTime:当前页面中第一条评论的时间,每页共有 15 条评论

经过一番爬虫,成功获取了将近4000条猫眼电影评论。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

不得不说,跟其他院线电影动辄几万、几十万条评论相比,《日不落酒店》显得寒碜多了。不得不服现在的观众们,避坑能力越来越强了。

毕竟当初《爱情公寓》当初还有个“情怀加成”。《日不落酒店》差评成这样还接着去看图啥呢?为了看沈腾的纸片人吗?

诈骗式营销

让我们看看观众们是怎么评价的?

先是看评分:远超一半的观众给出了一星的评价,但仍有10%的观众给出了高分的评价,标准烂片评分分布。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

其中在猫眼上给出评分的男性观众比例远高于女性观众。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

其实我们还获取了评论时间以及地域等数据信息,但其实意义不大,本文就不再展开讲述。

下面将利用python制作一个词云图,看看各位观众老爷们都表达了哪些看法?

# 绘制词云图  
def gen_stylecloud(text, file_name):  
    stylecloud.gen_stylecloud(text=' '.join(text), max_words=300,  
                              collocations=False,  
                              font_path=r'‪C:\Windows\Fonts\msyh.ttc',  
                              icon_name="fas fa-thumbs-down",  
                              size=800,  
                              output_name=f'{file_name}.png'  
                             )  

gen_stylecloud(text=text1, file_name='词云图')   
Image(filename="词云图.png")  

轻松制作词云图

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

扑面而来的就是各种差评字句,还有人用到了李诚儒老师的名言来形容自己的观后感:如坐针毡、如芒刺背、如鲠在喉

词云图中提到最多的就是沈腾,这也是猫眼大规模差评的导火索。

小五这里截图一张《日不落酒店》的海报,你们看看这个人物比例,真·重新定义特别出演。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

很多观众也在评论中透露,自己是因为有沈腾才去看的这部电影,谁能知道他在电影中只是一个人形立牌,也就是“纸片人”,并且只出现了不到3分钟。

被消耗的沈腾

细数开心麻花团队的电影作品,《夏洛特烦恼》上映于2015年,也是当年影院中最大的一匹黑马,让沈腾成为日后的“票房保障”。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

之后连续推出了《羞羞的铁拳》《西虹市首富》,所获得的成绩也相当不错。接下来的《李茶的姑妈》成了开心麻花的“滑铁卢”,豆瓣只有4.7分。

而且它的主演与《日不落酒店》的一样,都是黄才伦

不知道有没有影响,原本2019年春节档上映的《日不落酒店》,四次改档,直到今年的3.19日才上映。也许是自己极度不自信,才在宣传物料上各种“碰瓷”开心麻花和沈腾。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

而后,《日不落酒店》的导演发了一篇长道歉信,澄清了几件事,其一,电影《日不落酒店》和开心麻花没关系;其二,沈腾就是客串,但出品方和宣传团队非要强行宣传“主演”;其三,我们这拍的不是喜剧片。

目前沈腾已成为中国影史票房第一的演员,累计票房突破200亿元。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

现在他也经常被笑称为喜剧片的“票房保障”,网友甚至会说影片的“含腾量”如何如何。

但观众的信任感也是有限的,如果一而再、再而三地被拿来充当抢救票房的“烂片万金油”,声誉和路人缘也会总会被挥霍耗尽,失去其本应有的含金量。[2]

剧情好到哪里了吗

其实一开始制作的评论词云图中,还有一个关键词——“剧情”很突出!

那抛开被“纸片人”欺骗的感受,单论剧情有没有好一些呢。

重新使用python筛选并截取涉及剧情的评论,具体方法如下所示

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

然后重新制作评论剧情相关的词云图。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

大家把上图中的各种用词与“剧情”拼接起来,大概也就明白了单论剧情,仍然是一片骂声。

剧情无聊、剧情尴尬、剧情乱七八糟、剧情太烂、剧情垃圾、剧情难看、剧情无厘头等等,这就很离谱。

但客观的说,确实有好评中提到了剧情搞笑等正向词汇。

注:在计算中,关键词“不搞笑”和“搞笑”是区分开统计的,所以并非由于“不搞笑”的评论而导致“搞笑”词云占比大。

写在最后

上个月我说《唐探三》是电影票房榜上的烂片!更多是想说它的影片质量配不上它的票房。

但这次则是另一种烂,拼个散装剧本,然后找个开心麻花的演员当主演,最后搞个沈腾参演当噱头。

这种套壳营销方法,前有《爱情公寓》后有《日不落酒店》。

但最终观众们都用差评表达了自己的心声!

参考资料

[1]

Python小二,用 Python 爬取猫眼评论区看看电影《我和我的家乡》

[2]

《日不落酒店》被骂诈骗营销,沈腾成烂片万金油?

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/uTLV-BEybR2ljrzCpy4Hgg,可扫描二维码进行关注: Python爬取4000条猫眼评论,带你围观2021最烂院线电影 如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
浅梦一笑 浅梦一笑
4个月前
初学 Python 需要安装哪些软件?超级实用,小白必看!
编程这个东西是真的奇妙。对于懂得的人来说,会觉得这个工具是多么的好用、有趣,而对于小白来说,就如同大山一样。其实这个都可以理解,大家都是这样过来的。那么接下来就说一下python相关的东西吧,并说一下我对编程的理解。本人也是小白一名,如有不对的地方,还请各位大神指出01名词解释:如果在编程方面接触的比较少,那么对于软件这一块,有几个名词一定要了解,比如开发环
Aidan075 Aidan075
1年前
不好意思,它就是电影票房榜上的烂片!
(https://imghelloworld.osscnbeijing.aliyuncs.com/c56ab048680b8a1d6fe506220a3742df.png)大家好,我是小五继春节档首日票房超17亿元刷新纪录后,2021年中国电影票房再创新高,突破100亿元!这其中我也贡献了好几张票,今天就跟大家聊聊春节档
Aidan075 Aidan075
1年前
太酷炫了!我用Python画出了北上广深的地铁路线动态图
大家好,我是小五🐶今天教大家用python制作地铁线路动态图,这可能是全网最全最详细的教程了。坐标点的采集小五之前做过类似的地理可视化,不过都是使用网络上收集到的json数据。但很多数据其实是过时的,甚至是错误/不全的。所以我们最好还是要自己动手,丰衣足食(爬虫大法好)。打开高德地图的地铁网页,http://map.amap.com/subway/ind
Aidan075 Aidan075
1年前
用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?
↑关注星标  有趣的不像个技术号每晚九点,我们准时相约  大家好,我是朱小五今天给大家带来一个关于电影的数据分析文章。别走啊,这次不是豆瓣,也不是猫眼真的今天分析的电影是韩国电影《寄生虫》。它是由韩国导演奉俊昊自编自导的影片,一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯,创造历史成为奥斯卡史上首部
Aidan075 Aidan075
1年前
八佰:用Python看看知乎 vs 豆瓣的战斗
作者:朱小五来源:凹凸数据hi,大家好,我是小五真的是好久好久没去电影院了,上周去看了《八佰》。作为今年疫情以来上映的第一部国产电影,看完之后觉得大体还可以,中规中矩的国产战争片。摄影、调度应该算得上是国内一流,可惜后面剧情太拉胯了,要我评价的话会打个7.5分。自己打完分,又习惯性去看看别人的评价。结果发现了一个非常有意思的事情:精英大本营与文艺小青年的
Aidan075 Aidan075
1年前
破解大众点评的字体加密,这一篇就够了。
咕咕咕,我回来啦。放了好久的鸽子,说好的写猫眼票房榜推了将近一个月,轻点打我写猫眼需要先解决字体动态加密,所以先写一篇如何破解简单一点的XX点评字体加密。下面正文开始:大家爬取分析XX点评数据,最常见的无非两种:1、分析所有店铺的各类评分和推荐菜等2、获得店铺里的评论数据
Aidan075 Aidan075
1年前
破解X眼电影字体动态加密|凹凸玩数据
我们在上一篇文章中提到了,大众点评只是静态字体加密,这次我们抱着学习的态度以猫眼电影为例讲讲如何破解字体动态加密。没有了解过字体加密的小伙伴可以先看看上一篇,本文与上一篇重复的部分就不细讲了。我们打开猫眼电影票房榜单的首页https://maoyan.com/board/1很明显,猫眼电影的榜单进行了字体加密。让我们回忆一下破解大众点评的步骤:1、下载
Wesley13 Wesley13
1年前
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器、HTML解析器、数据存储器三大模块:HTML下载器:利用requests模块下载HTML网页;HTML解析器:利用re正则表达
Stella981 Stella981
1年前
Ajax爬取豆瓣电影目录(Python)
下面的分析相当于一个框架,搞懂之后,对于类似的文字爬取,我们也可以实现。就算不能使用Ajax方法,我们也能够使用相同思想去爬取我们想要的数据。豆瓣电影排行榜分析网址:https://movie.douban.com/explore!typemovie&tag%E7%83%AD%E9%97%A8&sortrecom
Python进阶者 Python进阶者
4个月前
练习爬虫,我想问一下这个xpath语句为啥找不到元素,感谢大佬!
大家好,我是皮皮。一、前言前几天在Python钻石交流群【萤火】问了一个Python网络爬虫的问题,下图是截图:下图是报错截图:二、实现过程这里【error】给了一个代码,如下所示,满足粉丝的需求:用selenium没找到的话,大概率是网页还没渲染出来,代码就运行到了抓取规则,所以抓不到。其实他的匹配规则是可以拿到数据的,只不过用jupyter运行sel