爬虫使用分享:风云2号卫星气象照片

逻辑聆风使
• 阅读 1126

爬虫概述

早在2016年,我用我的阿里云ECS上运行了一个长期性质的爬虫程序,内容是采集风云二号气象卫星照片,现在假期终于有时间回来查看结果,简单统计如下(附图):

图片总数:45869 个文件

最早文件:201609131345.jpg

最晚文件:201910091415.jpg

爬虫使用分享:风云2号卫星气象照片

爬虫运行过程

1,数据源:

当时意外获得一个长期有效的数据来源,其URL参数,为时间格式,也就是说有着明显的规律。适合爬虫运行

2,爬虫运行:

这个爬虫的运行条件其实有2个:1定时下载;2不停机运行;

既然是气象数据,当然得定时抓取,所以我写了一个windows服务,置于后台连续运行。虽然中间由于服务器其他问题导致中断过几次,不过架不住时间长久,因此还是成功连续采集了很多数据。

还有个要求就是不能关机,程序需要连续运行。我的最终方案就是使用云服务器ECS部署运行。避免使用个人PC长期开机来运行。

3,处理存储:

首先,这个程序既然要长期运行,那么非常避讳的一点就是所有结果都集中在一个本地文件夹里,因此我选用了阿里云对象存储OSS,同时由于我需要不关机,所以我最终是云服务器ECS+对象存储OSS,ECS和OSS使用了同地域的,因此内网打通传输很快。这样我就只在本地做一个临时存储,转存OSS后不再占用本地硬盘,这样一来我才可以放心启动后“免维护”运行这好几年。

4,爬虫关停

爬虫的关停并非我本意,是我假期期间查看日志才知道数据源已经失效了。因此本爬虫寿终正寝。虽然我可以去寻找一下新的有效数据源,但是由于老数据我都没用好,那么新的数据就暂时先不去寻找了。

爬虫工作完成,最终成果下载

我选用了阿里云推荐的OSS客户端工具,由于我提前规划好了ECS和OSS同地域,因此可以直接内网下载到我的ECS,速度还是很快的,工具显示大于60MB/s。工具部分截图如图:

爬虫使用分享:风云2号卫星气象照片

为了避免OSS公网下载流量的费用支出(其实是穷:直接下载6G大小文件,忙时价格为1块5毛钱),我将OSS数据内网下载后,走ECS的出带宽下载回我PC本地。本地查看:

爬虫使用分享:风云2号卫星气象照片

原文地址:https://www.opengps.cn/Blog/View.aspx?id=590文章的更新编辑依此链接为准。欢迎关注源站原创文章!

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Peter20 Peter20
4年前
mysql中like用法
like的通配符有两种%(百分号):代表零个、一个或者多个字符。\(下划线):代表一个数字或者字符。1\.name以"李"开头wherenamelike'李%'2\.name中包含"云",“云”可以在任何位置wherenamelike'%云%'3\.第二个和第三个字符是0的值wheresalarylike'\00%'4\
Stella981 Stella981
3年前
Shodan的http.favicon.hash语法详解与使用技巧
  在Shodan搜索中有一个关于网站icon图标的搜索语法,http.favicon.hash,我们可以使用这个语法来搜索出使用了同一icon图标的网站,不知道怎么用的朋友请参考我上一篇(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.cnblogs.com%2Fmia
Wesley13 Wesley13
3年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Wesley13 Wesley13
3年前
ECS主动运维2.0,体验升级,事半功倍
_摘要:_ 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,而且利用系统事件,不再依赖于工单联系客服,可以通过自助处理的方式响应主动运维实例重启,减少对系统可靠性和业务连续性的影响。   云服务器ECS(ElasticCompute
Stella981 Stella981
3年前
KubeVela 正式开源:一个高可扩展的云原生应用平台与核心引擎
【来源:阿里巴巴云原生公众号(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzUzNzYxNjAzMg%3D%3D%26mid%3D2247496420%26idx%3D1%26sn%3D3c7f079c40fde0ea91
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Linux日志安全分析技巧
0x00前言我正在整理一个项目,收集和汇总了一些应急响应案例(不断更新中)。GitHub地址:https://github.com/Bypass007/EmergencyResponseNotes本文主要介绍Linux日志分析的技巧,更多详细信息请访问Github地址,欢迎Star。0x01日志简介Lin
Stella981 Stella981
3年前
Hibernate纯sql查询结果和该sql在数据库直接查询结果不一致
问题:今天在做一个查询的时候发现一个问题,我先在数据库实现了我需要的sql,然后我在代码中代码:selectdistinctd.id,d.name,COALESCE(c.count_num,0),COALESCE(c.count_fix,0),COALESCE(c
Stella981 Stella981
3年前
C语言Linix服务器网络爬虫项目(一)项目初衷和网络爬虫概述
一、项目初衷和爬虫概述1.项目初衷  本人的大学毕设就是linux上用c写的一个爬虫,现在我想把它完善起来,让他像一个企业级别的项目。为了重复发明轮子来学习轮子的原理,我们不使用第三方框架(这里是说的是指通常的linux系统编程教材以外的库和接口0,当初我也是在虚拟机上跑的ubuntuputtyvim来开发)来实现。  然而我们造轮