Python爬取网易云歌单

Stella981
• 阅读 1385

基本配置:

  • Python版本:3.7

相关模块:

from urllib import parsefrom lxml import etreefrom urllib3 import disable_warningsimport requests

案例关键点:

使用单线程爬取,未登录,爬取网易云歌单主要有三个关键点:

网易云使用翻页形式,其特点为url的limit和offset参数:

  • limit 表示单页显示的歌单数(修改无效)

  • offset 表示当前页数,即 offset / limit + 1

发送get请求时froms与url的参数一样

  • cat 歌单类型,必须将中文转码

  • order 最新或最热

  • limit 与url参数一致

  • offset 与url参数一致

完整代码:

from urllib import parsefrom lxml import etreefrom urllib3 import disable_warningsimport requests'''遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!'''class Wangyiyun(object):    def __init__(self, **kwargs):        # 歌单的歌曲风格        self.types = kwargs['types']        # 歌单的发布类型        self.years = kwargs['years']        # 这是当前爬取的页数        self.pages = pages        # 这是请求的url参数(页数)        self.limit = 35        self.offset = 35 * self.pages - self.limit        # 这是请求的url        self.url = "https://music.163.com/discover/playlist/?"    # 设置请求头部信息(可扩展:不同的User - Agent)    def set_header(self):        self.header = {            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36",            "Referer": "https://music.163.com/",            "Upgrade-Insecure-Requests": '1',        }        return self.header    # 设置请求表格信息    def set_froms(self):        self.key = parse.quote(self.types)        self.froms = {            "cat": self.key,            "order": self.years,            "limit": self.limit,            "offset": self.offset,        }        return self.froms    # 解析代码,获取有用的数据    def parsing_codes(self):        page = etree.HTML(self.code)        # 标题        self.title = page.xpath('//div[@class="u-cover u-cover-1"]/a[@title]/@title')        # 作者        self.author = page.xpath('//p/a[@class="nm nm-icn f-thide s-fc3"]/text()')        # 阅读量        self.listen = page.xpath('//span[@class="nb"]/text()')        # 歌单链接        self.link = page.xpath('//div[@class="u-cover u-cover-1"]/a[@href]/@href')        # 打印看看        for i in zip(self.title, self.link, self.author, self.listen):            print("[歌单名称]:{}\n[发布作者]:{}\n[总播放量]:{}\n[歌单链接]:{}\n".format(i[0],i[2],i[3],"https://music.163.com/"+i[1]))        print('第{}页'.format(self.pages).center(50,'='))    # 获取网页源代码    def get_code(self):        disable_warnings()        self.froms['cat']=self.types        disable_warnings()        self.new_url = self.url+parse.urlencode(self.froms)        self.code = requests.get(            url = self.new_url,            headers = self.header,            data = self.froms,            verify = False,        ).text    # 爬取多页时刷新offset    def multi(self ,page):        self.offset = self.limit * page - self.limitif __name__ == '__main__':    #=======================================    # 指定一些参数    # 歌单的歌曲风格    types = "说唱"    # 歌单的发布类型:最热=hot,最新=new    years = "hot"    # 指定爬取的页数    pages = 1    #=======================================    # =======================================    # 例子:通过pages变量爬取指定页面(多页)    music = Wangyiyun(        types = types,        years = years,    )    for i in range(pages):        page = i+1              # 因为没有第0页        music.multi(page)       # 爬取多页时指定,传入当前页数,刷新offset        music.set_header()      # 调用头部方法,构造请求头信息        music.set_froms()       # 调用froms方法,构造froms信息        music.get_code()        # 获取当前页面的源码        music.parsing_codes()   # 处理源码,获取指定数据    # =======================================    #=======================================    # 例子:通过pages变量爬取指定页面(单页)    # music = Wangyiyun(    #     types=types,    #     years=years,    # )    # music.set_header()    # music.set_froms()    # music.get_code()    # music.parsing_codes()    #=======================================

运行效果图:

Python爬取网易云歌单

Python爬取网易云歌单

长按二维码关注

公众号「跟我学Python」

Python爬取网易云歌单

你点一个在看 👍

就是最大的支持Python爬取网易云歌单

======================================================================================================================

本文分享自微信公众号 - web项目开发(javawebkaifa)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
秃头王路飞 秃头王路飞
5个月前
webpack5手撸vue2脚手架
webpack5手撸vue相信工作个12年的小伙伴们在面试的时候多多少少怕被问到关于webpack方面的知识,本菜鸟最近闲来无事,就尝试了手撸了下vue2的脚手架,第一次发帖实在是没有经验,望海涵。languageJavaScript"name":"vuecliversion2","version":"1.0.0","desc
浅梦一笑 浅梦一笑
5个月前
初学 Python 需要安装哪些软件?超级实用,小白必看!
编程这个东西是真的奇妙。对于懂得的人来说,会觉得这个工具是多么的好用、有趣,而对于小白来说,就如同大山一样。其实这个都可以理解,大家都是这样过来的。那么接下来就说一下python相关的东西吧,并说一下我对编程的理解。本人也是小白一名,如有不对的地方,还请各位大神指出01名词解释:如果在编程方面接触的比较少,那么对于软件这一块,有几个名词一定要了解,比如开发环
blmius blmius
1年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
技术小男生 技术小男生
5个月前
linux环境jdk环境变量配置
1:编辑系统配置文件vi/etc/profile2:按字母键i进入编辑模式,在最底部添加内容:JAVAHOME/opt/jdk1.8.0152CLASSPATH.:$JAVAHOME/lib/dt.jar:$JAVAHOME/lib/tools.jarPATH$JAVAHOME/bin:$PATH3:生效配置
光头强的博客 光头强的博客
5个月前
Java面向对象试题
1、请创建一个Animal动物类,要求有方法eat()方法,方法输出一条语句“吃东西”。创建一个接口A,接口里有一个抽象方法fly()。创建一个Bird类继承Animal类并实现接口A里的方法输出一条有语句“鸟儿飞翔”,重写eat()方法输出一条语句“鸟儿吃虫”。在Test类中向上转型创建b对象,调用eat方法。然后向下转型调用eat()方
刚刚好 刚刚好
5个月前
css问题
1、在IOS中图片不显示(给图片加了圆角或者img没有父级)<div<imgsrc""/</divdiv{width:20px;height:20px;borderradius:20px;overflow:h
小森森 小森森
5个月前
校园表白墙微信小程序V1.0 SayLove -基于微信云开发-一键快速搭建,开箱即用
后续会继续更新,敬请期待2.0全新版本欢迎添加左边的微信一起探讨!项目地址:(https://www.aliyun.com/activity/daily/bestoffer?userCodesskuuw5n)\2.Bug修复更新日历2.情侣脸功能大家不要使用了,现在阿里云的接口已经要收费了(土豪请随意),\\和注意
晴空闲云 晴空闲云
5个月前
css中box-sizing解放盒子实际宽高计算
我们知道传统的盒子模型,如果增加内边距padding和边框border,那么会撑大整个盒子,造成盒子的宽度不好计算,在实务中特别不方便。boxsizing可以设置盒模型的方式,可以很好的设置固定宽高的盒模型。盒子宽高计算假如我们设置如下盒子:宽度和高度均为200px,那么这会这个盒子实际的宽高就都是200px。但是当我们设置这个盒子的边框和内间距的时候,那
艾木酱 艾木酱
5个月前
快速入门|使用MemFire Cloud构建React Native应用程序
MemFireCloud是一款提供云数据库,用户可以创建云数据库,并对数据库进行管理,还可以对数据库进行备份操作。它还提供后端即服务,用户可以在1分钟内新建一个应用,使用自动生成的API和SDK,访问云数据库、对象存储、用户认证与授权等功能,可专
helloworld_28799839 helloworld_28799839
5个月前
常用知识整理
Javascript判断对象是否为空jsObject.keys(myObject).length0经常使用的三元运算我们经常遇到处理表格列状态字段如status的时候可以用到vue