用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

Aidan075 等级 666 0 0
标签: 寄生虫python

↑ 关注 + 星标 ~ 有趣的不像个技术号

每晚九点,我们准时相约 用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

大家好,我是朱小五

今天给大家带来一个关于电影的数据分析文章。

别走啊,这次不是豆瓣,也不是猫眼

真的

今天分析的电影是韩国电影《寄生虫》。

它是由韩国导演奉俊昊自编自导的影片,一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯,创造历史成为奥斯卡史上首部非英语最佳影片。

nb plus!

这次带大家看看韩国人如何评价这部韩国电影的?

获取数据

数据从哪获取呢?

我们先打开韩国最大门户网站NAVER

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

找到영화(电影)板块,搜索기생충(寄生虫)并打开

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

上面介绍部分跟猫眼专业版一样,各种评分、演职员表、评分男女比例、年龄分布。

在评论区部分,它其实有点像是豆瓣和猫眼的综合体,无论看没看过都可以评价打分,不过看过的会单独有个小标识。

我们下划到评论区

下图中可以看到,目前有36360条评价,我们想要获取的数据是黑框中的内容。

包括每条留言的评论人昵称、评论时间、评分、评论内容以及这条评论得到的赞或踩。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

下面开始爬取评论数据

利用requests和pyquery爬取数据,展示部分源码,完整见文末。

def main():  
    data = []  
    for i in range(1,200):    #爬取多少页  
        url = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=161967&type=after&onlyActualPointYn=N&onlySpoilerPointYn=N&order=newest&page='+str(i)  
        print('准备采集第{}页数据'.format(i))  
        html = restaurant(url)  
        doc = pq(html)  
        for i in range(0,10):  
            print(i)  
            dic = {}  
            dic['star'] = doc('li:nth-child(' + str(i+1) +') > div.star_score > em').text()  
            dic['text'] = doc('#_filtered_ment_' + str(i)).text()  
            dic['datetime'] = doc('li:nth-child(' + str(i+1) +') > div.score_reple > dl > dt > em:nth-child(2)').text()  
            dic['name'] = doc('li:nth-child(' + str(i+1) +') > div.score_reple > dl > dt > em:nth-child(1) > a').text()  
            dic['zan'] = doc('li:nth-child(' + str(i+1) +') > div.btn_area > a._sympathyButton > strong').text()  
            dic['cai'] = doc('li:nth-child(' + str(i+1) +') > div.btn_area > a._notSympathyButton > strong').text()  
            data.append(dic)  
        #time.sleep(random.random())  
        pd.DataFrame(data).to_csv('寄生虫评论.csv',encoding="utf_8",index = False)  
    return data  

运行结果:

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

歪瑞古德!

这样我们就成功获取了韩国人评价韩国电影《寄生虫》的评论数据!

数据整理

我们简单看一下数据

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

共35940条,比上文截图时候少了一点,这是因为我爬取和写这篇文章的时候有一点时间间隔,所以这个小问题请忽略。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

另外,非常明显,评论字段缺失了很多。

我查看了一下,认为是在这个网站观看过电影的人可以只打分,不写评论。

(有点像在猫眼上买了电影票,评论时候同样可以只打分,不写评论)

简单补齐它吧,直接删除还是会影响整体的评分的。

def data_cleaning(df):  
    cols = df.columns  
    for col in cols:  
        if df[col].dtype ==  'object':  
            df[col].fillna('缺失数据', inplace = True)  
        else:  
            df[col].fillna(0, inplace = True)  
    return(df)  

这样我们就补全了缺失值

简单看一下平均分吧

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

看来这就是韩国观众的打分(9.07)比网民对《寄生虫》虫的评价(8.48)要高。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。

后面想讲韩国网友的评论做一个词云,这样的话我们就需要先将评论中的韩文翻译成中文。

翻译评论

采用哪个翻译软件呢?

尝试了几个常见的翻译,发现结果都大同小异。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

干脆采用了之前自己用过的有道翻译小接口。

def translate(text):  
    url = 'http://fanyi.youdao.com/translate?&doctype=json&type=KR2ZH_CN&i='+ text  
    requ_text = requests.get(url)  
    json_text = requ_text.json()  
    data = json_text['translateResult'][0][0]['tgt']  
    time.sleep(2+random.random())  
    print('翻译中')  
    return data  

将评论列翻译,并新建一列用以做词云

ata['text_t'] = data.apply(lambda x :translate(x['text']), axis=1)

运行结果

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

额,这个翻译一言难尽,不过大体意思还是可以看懂的,不太影响做词云。

接下来我们开始尝试做做图。

分析与可视化

正常利用python分析电影评论都有一个环节是男女比例和评分比例,这次我们并没有获得相关数据,那么就用NAVER网站提供的结果图简单的讲一下吧。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

观看人群的性别比例非常均衡,各占50%。

各年龄段均有分布,其中[20,30)的观看人群最多。为什么10-20岁的青少年观看这么少呢?后面词云部分会回答这个问题。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

在上图普通网民的评价中,女性评分更高一些。随着年龄的增长,评分越低,难道是越是年龄大的人越看透了韩国的现状?

他们主要的欣赏点依次是“导演”、“연기”、“故事”、“视觉效果”、“电影原声”。

(其中的“연기”用翻译软件都是翻译成烟,难道是特效的意思?懂韩文的同学可以留言一下)

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

至于看过电影的观众打分比普通网民会高,平均9.07分,而且男性比女性要略高。其他方面大体相似,就不讲了。

我们再看一下,韩国观众对电影《寄生虫》评论数量的时间走势。

plt.figure(figsize=(8,5), dpi=200)  
x = score_by_time.index.date  
y = score_by_time.values  
plt.plot(x,y,c="g",marker=".",ls="-")  

plt.title("韩国电影《寄生虫》评论数走势图")  
plt.xlabel("月份")  
plt.ylabel("评论数")  

结果如下

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

可以明显看到,评论数量在电影《寄生虫》上映后达到一个高峰,而后随着时间的推移,数量逐渐减少。

之后有两个小高峰,分别是2019年8月初和2020年2月初。

通过查找新闻信息,收集到了两个消息:

1、韩国电影《寄生虫》,预计将在8月6日公开流媒体服务(就相当于我国的爱奇艺、优酷类似的平台)。

2、《寄生虫》2月10日拿下四项奥斯卡大奖后,在韩国的热度继续上升。

这样大家应该就解释清楚两个小高峰的问题啦。

最后我们再利用有道翻译好的评论数据做个WordCloud词云吧。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

在对主创人员的讨论中,奉俊昊导演的功力和宋康昊的杰出演技被多次提及,电影中提到的“气味”“果酱”“戒指”也被多次探讨,故事中对社会与现实的反思也是热门的讨论话题。

前文我提到了为什么10-20岁的青少年观看这么少呢?而且词云中“15”这个关键词也比较突出。

这是因为韩国于1998年建立电影分级制度。规定电影分为5个等级:全民、12岁以上、15岁以上、18岁以上可以观看和限制放映。

而《寄生虫》在韩国获得了“15岁以上可以观影”的等级判定。

对作品内容就不做评价了。

以上。

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

后台回复关键词「**进群**」,即刻加入读者交流群~

用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

这篇文章的灵感在去年看《寄生虫》就有了,结果就拖延拖延;

到了今年《寄生虫》获得奥斯卡,结果又因为那段时间工作忙,没时间写,就拖到了现在。

所以说,大家多多点在看,这样我就不好意思拖延不发原创了,是不是用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/sZj1WaNOUQoMnylWgtvPOA,可扫描二维码进行关注: 用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》? 如有侵权,请联系删除。

收藏
评论区

相关推荐

被“词云”包围的冰冰会更好看吗?安排
(https://imghelloworld.osscnbeijing.aliyuncs.com/b299933deefc692934e8cc6141ab3894.png) 大家好,我是小五🐶 昨天「凹凸数据」发了一篇张同学投稿的文章《用Python爬取王冰冰vlog弹幕并制作词云(https://mp.weixin.qq.com/
商业数据分析从入门到入职(9)Python网络数据获取
@toc 前言本文主要讲Python最常见的应用之一——网络数据获取,即爬虫:先介绍了网页和网络的基础知识,为从网页中获取数据打好基础;接下来以两个案例介绍从网络中获取数据和处理数据的不同方式,以进一步认识Python爬虫和数据处理。 一、网络和网页基础知识 1.数据来源数据源有很多,可以从数据库中获取,可以从文件中获取,也可以从
1年前的小五都用 Python 来做什么?
↑ 点击上方 “凹凸数据” 关注 + 星标  每天更新,干货不断   (多图预警) 注:这是小五一年前在知乎的回答,当时还只有凹凸数读一个公众号,所以很多图片都会带有数读或者知乎的水印。 作为一个菜鸟数据分析师,只会sql+python业余时间写写文章:用python爬取数据→数据清洗→数据分析→数据可视化词云镇楼20190730回来看,前面
用python爬取4332条粽子数据进行分析,再送15盒粽子给大家
↑ 点击上方 “凹凸数据” 关注 + 星标  文章干货!有福利 !  端午节快要到了,甜咸粽子之争也快要拉开帷幕。 小五准备用Python爬取淘宝上的粽子数据并进行分析,看看有什么发现。(顺便送大家一波福利)爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览器自动化操作\[1\]。其实我们还可以利用Ajax接口来构造链接,但是非常
爬取五大平台621款手机,告诉你双十一在哪买最便宜!
↑关注+置顶 有趣的不像个技术号 今晚0点,相约剁手大家好,我是朱小五 明天就是双十一了,看了看自己手里的卡的像IE浏览器的手机,感觉可能等不到5G普及了。 我!要!换!手!机! 去哪买呢? 作为一个机(pin)智(qiong)boy,肯定要比价啊,哪家便宜去哪家 我用Python爬取了某比价网站的手机数据,获取了其中五大平台(天猫,京东,
Python网络爬虫与信息提取
title: Python网络爬虫与信息提取date: 20201210 01:00:23tags: Pythoncategories: 学习笔记 写在前面 不知道写啥其实说实话[TOC] 网络爬虫之规则 安装requests库cmd 命令行打开输入pip3 install requests,等待即可简单测试,爬一下bkjwpythonimport requ
《Python3网络爬虫开发实战》
提取码:1028内容简介 · · · · · ·本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,后介绍了pyspider框架、S
多人说Python简单,但是如何入门Python并精通?
一般而言,Python几个月就可以开始使用了。假如你几个月没入门,那肯定是方法不对,或者是偷懒.我在公众号里有一篇文章详细写了“初学者别上爬虫”,爬虫虽然很有趣,但不适合于小白用户。以下是2点:多人说Python简单,但是如何入门Python并精通?Python再简单再通俗,它也是一门语言,掌握一门语言绝非一朝一夕,我个人不推荐初学者上岸学习爬虫,我举一个很
创建免费ip代理池
     反爬技术越来越成熟,为了爬取目标数据,必须对爬虫的请求进行伪装,骗过目标系统,目标系统通过判断请求的访问频次或请求参数将疑似爬虫的ip进行封禁,要求进行安全验证,通过python的第三方库faker可以随机生成header伪装请求头,并且减缓爬虫的爬取速度,能很好的避过多数目标系统的反扒机制,但对一些安全等级
3000字 “婴儿级” 爬虫图文教学 | 手把手教你用Python爬取 “实习网”!
1\. 为"你"而写 这篇文章,是专门为那些 "刚学习" Python爬虫的朋友,而专门准备的文章。希望你看过这篇文章后,能够清晰的知道整个 "爬虫流程"。从而能够 "独立自主" 的去完成,某个简单网站的数据爬取。好了,咱们就开始整个 “爬虫教学” 之旅吧!2\. 页面分析 ① 你要爬取的网站是什么?首先,我们应该清楚你要爬去的网站是什么?由于这里我们想要
爬取软件工程师相关信息
爬取有关软件工作的信息 import reimport requestsfrom pymysql import connectfrom bs4 import BeautifulSoup 定义数据库的连接函数conn connect(user"root", password"root", host"localhost", database"python",
手把手教你使用XPath爬取免费代理IP
大家好,我是霖hero。前言 可能有人说,初学者Python爬虫爬数据太难啦,构造正则表达式的时候,太烦琐了,眼睛都看花了,而且前一秒还可以愉快地爬取,下一秒IP就被封了,这还爬个屁啊,不爬了。哎,不要着急,这篇文章我们教你如何使用XPath来爬取快代理中的免费代理IP,告别眼花,告别IP被封的烦恼。XPath首先我们来简单了解一下XPath,想要了解更多
实战|手把手教你用Python爬取存储数据,还能自动在Excel中可视化!
大家好,在之前我们讲过如何用Python构建一个带有GUI的爬虫小程序,很多本文将迎合热点,延续上次的NBA爬虫GUI,探讨如何爬取虎扑NBA官网数据。 并且将数据写入Excel中同时自动生成折线图,主要有以下几个步骤。本文将分为以下两个部分进行讲解 在虎扑NBA官网球员页面中进行爬虫,获取球员数据。 清洗整理爬取的球员数据,对其进行可视化。
手把手教你用Pycharm连接远程Python环境
前言本次咱们来操作一下如何在Pycharm上,使用远程服务器上的Python环境。 为什么这样做?这个要从我的一次经历说起,有一次我帮朋友爬取一些东西,由于类别不同,分了几次爬取,这一次我写好规则之后,依然正常爬取,由于我本人比较善良,加上数据量目测并不是太多,并没有使用代理ip,并且将scpay的速度控制的比较慢,一般爬取时,一般也就几分钟而已,泡一杯咖
手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)
大家好,我是Python进阶者。 前言前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬