什么,3行Python代码就能获取海量数据?

Irene181
• 阅读 1871

本文转载自公众号【法纳斯特】,详情可以点击上方卡片,关注该公众号,获取更多好文推荐。

一谈起数据分析,首先想到的就是数据,没有数据,谈何分析。

毕竟好的菜肴,没有好的原材料,是很难做的~

所以本期小F就给大家分享一个获取数据的方法,只需三行代码就能搞定。

「GoPUP」,大佬造的轮子,大概有100+的免费数据接口。

什么,3行Python代码就能获取海量数据?

GitHub:https://github.com/justinzm/gopup

使用文档:http://doc.gopup.cn/#/README

主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等。



# 安装gopup  
pip install gopup  --upgrade  


安装成功后,就能使用了。

01 微博指数

获取指定关键词的微博指数。



# 微博指数  
import gopup as gp  
df_index = gp.weibo_index(word="马保国", time_type="1month")  
print(df_index)  


time_type="1month"; 1hour, 1day, 1month, 3month 选其一。

什么,3行Python代码就能获取海量数据?

三行Python代码实现数据获取。

02 百度指数

获取指定关键词的百度搜索指数。



# 百度指数  
# 百度指数
import gopup as gp
cookie = "此处输入您在网页端登录百度指数后的 cookie 数据"
index_df = gp.baidu_search_index(word="马保国", start_date='2020-11-15', end_date='2020-11-25', cookie=cookie)
print(index_df)

需要登陆百度指数,获取你的Cookie。

什么,3行Python代码就能获取海量数据?

设置关键词,时间起始,就能获取到马保国老师的热度数据了。

什么,3行Python代码就能获取海量数据?

后面还有百度资讯、媒体、需求图谱、人群年龄、性别、兴趣分布数据接口,就不一一介绍了。

感兴趣的同学可以自行去查看文档。

03 头条指数

什么,3行Python代码就能获取海量数据?

获取指定关键词的头条指数。



# 头条指数
import gopup as gp
index_df = gp.toutiao_index(keyword="马保国", start_date='20201115', end_date='20201125')
print(index_df)

接口挂了,不知为何~

还有相关性、情感、地域、城市、年龄、性别、用户阅读兴趣分析数据等接口。

04 谷歌数据

需要通过代理才能使用,不过上面这三类已经完全够用了。

# 谷歌数据
import gopup as gp
index_df = gp.google_index(keyword="马保国", start_date='2020-11-15T10', end_date='2020-11-25T23')
print(index_df)

05 宏观经济数据

有一个杠杆率的数据可以使用。


# 杠杆数据
import gopup as gp
df_index = gp.marco_cmlrd()
print(df_index)

不懂经济学,所以不明觉厉。

什么,3行Python代码就能获取海量数据?

06 新经济数据

这个数据倒是蛮有趣的,主要是公司数据。

比如独角兽和倒闭公司的数据。

# 独角兽公司数据
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)

一共是240家独角兽公司。

什么,3行Python代码就能获取海量数据?

蚂蚁、字节、阿里云、滴滴,都是行业中的大佬。

# 倒闭公司数据
import gopup as gp
df_index = gp.death_company()
print(df_index)

倒闭的公司一共有6921家。

什么,3行Python代码就能获取海量数据?

看到不少P2P的公司。

剩下还有有一个特许经营许可数据,好像是吊牌销售的意思。

前段时间看到一篇文章,讲的就是南极人吊牌销售的事情,南极人都不自己搞生产,而是代工。

07 KOL数据&信息数据

主要是微博的KOL,所以没啥用。

# KOL数据
import gopup as gp
g = gp.pro_api(token = "……")
df_index = g.weibo_user(keyword="雷军")
print(df_index)

信息数据是新闻联播文字稿。

08 中国油价数据

包含汽油和柴油的调价信息数据。

# 油价数据
import gopup as gp
df_index = gp.energy_oil_hist()
print(df_index)

时间从2000年直到2020年,细数20年油价变化。

什么,3行Python代码就能获取海量数据?

09 百度迁徙数据

可以用来做飞线图或者OD图。

# 迁徙数据
import gopup as gp
migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201")
print(migration_area_baidu_df)

单次返回100个城市的数据。

什么,3行Python代码就能获取海量数据?

10 影视数据

实时电影票房数据,最近又有病例出现,数据应该也比较惨淡。

这里需要一个WebDES.js文件,才能请求成功。

# 实时电影票房数据
import gopup as gp
df_index = gp.realtime_boxoffice()
print(df_index)

「如果声音不记得」当日1千万的票房,太少了。

什么,3行Python代码就能获取海量数据?

单日影院数据,今年影院能倒闭一大堆。

# 单日影院数据
import gopup as gp
df_index = gp.day_cinema(date="2020-12-08")
print(df_index)

得到票房前100的数据。

什么,3行Python代码就能获取海量数据?

最高应该是8万多的收入。

实时电视剧播映指数,天气冷了选个好剧或者综艺,窝在被窝刷起来。


# 电视剧数据
import gopup as gp
df_index = gp.realtime_tv()
print(df_index)

大秦赋,小F也在看,感觉还不错。

什么,3行Python代码就能获取海量数据?

还有实时综艺播映指数、艺人商业价值、流量价值等数据。

11 全国高等学校数据

普通高等学校名单,包含名称、主管部门,所在省市、所在地、办学层次等信息。


# 普通高等学校数据
import gopup as gp
df_index = gp.university()
print(df_index)

一共是2631所高校。

什么,3行Python代码就能获取海量数据?

还有成人高等学校以及高等学校详情数据。

12 疫情数据

有网易、丁香园、百度三家的疫情数据。


# 世界历史累计确诊数据
import gopup as gp
covid_163_df = gp.covid_163(indicator="世界历史累计数据")
print(covid_163_df)

目前累计207个国家有疫情出现。

什么,3行Python代码就能获取海量数据?

全世界总共就233个国家和地区,快接近90%了。

由于数据接口太多了,小F就不一一介绍了,可以点击左下角的阅读原文,查看文档。

文末赠书

本次小F联合【机械工业出版社华章公司】给大家带来2本计算机视觉相关的书籍。

OpenCV 4计算机视觉项目实战》介绍OpenCV的入门知识及安装,然后介绍OpenCV的基础知识,包括用户界面、矩阵运算、滤波器和直方图等,之后介绍复杂的计算机视觉算法,包括对象分割和分类、视频监控、对象跟踪等,最后探讨对象跟踪、文本识别、机器学习和人脸检测等高级技术。 欢迎各位大佬点击链接加入群聊【helloworld开发者社区】:https://jq.qq.com/?_wv=1027&k=mBlk6nzX进群交流IT技术热点。

本文转自 https://mp.weixin.qq.com/s/f7_EwkY6QzMURMMI4MLi3w,如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Irene181 Irene181
2年前
60行Python代码开发在线markdown编辑器
本文转载自公众号【python大数据分析】,详情可以点击上方卡片,关注该公众号,获取更多好文推荐。❝本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes❞1简介这是我的系列教程「PythonDash快速web应用开发」的第六期,在上一期的文章中,我们完成了对
Irene181 Irene181
2年前
秀的一批,那些你不得不知的 PyCharm 高效操作
本文转载自公众号【Python技术】,详情可以点击上方卡片,关注该公众号,获取更多好文推荐。文|豆豆来源:Python技术「ID:pythonall」熟话说,工欲善其事,必先利其器,PyCharm作为最好用的IDE工具,有着各种各样的骚操作,这是高级开发工程师必须熟悉的基本技能。今天就给大家推荐一些秀的一批的高效操作。让你脱离CV
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
2年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这