python-爬取中国天气网7天天气并保存至本地

递归流星
• 阅读 3343

1.中国天气网
http://www.weather.com.cn/weather/101010100.shtml

2.分析页面
python-爬取中国天气网7天天气并保存至本地

3.浏览器-F12-定位查看元素嵌套关系
python-爬取中国天气网7天天气并保存至本地

4.导入需要的库

import requests
from bs4 import BeautifulSoup
import re

5.代码部分

result_list_wt = []

def get_page(url):
    try:
        kv = {'user-agent':'Mozilla/5.0'}
        r = requests.get(url,headers = kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return 'error'

def parse_page(html, return_list):
    soup = BeautifulSoup(html, 'html.parser')
    day_list = soup.find('ul', 't clearfix').find_all('li')
    for day in day_list:
        date = day.find('h1').get_text()
        wea = day.find('p',  'wea').get_text()
        if day.find('p', 'tem').find('span'):
                hightem = day.find('p', 'tem').find('span').get_text()
        else:
                hightem = ''
        lowtem = day.find('p', 'tem').find('i').get_text() 
        win = re.findall('(?<= title=").*?(?=")', str(day.find('p','win').find('em')))
        wind = '-'.join(win)
        level = day.find('p', 'win').find('i').get_text()
        return_list.append([date, wea, lowtem, hightem, wind, level])

def print_res(return_list):
    tplt = '{0:<10}\t{1:^10}\t{2:^10}\t{3:{6}^10}\t{4:{6}^10}\t{5:{6}^5}' 
    result_list_wt.append(tplt.format('日期', '天气', '最低温', '最高温', '风向', '风力',chr(12288))+"\n") 
    for i in return_list:
        result_list_wt.append(tplt.format(i[0], i[1],i[2],i[3],i[4],i[5],chr(12288))+"\n")
        
def main():
    # 城市-城市码txt
    files = open('city_list.txt',"r")
    city_name_id = files.readlines()
    try:
        # 获取txt-list
        for line in city_name_id:
            name_id = line.split('-')[1].replace("['","").replace("\n","")
            url = 'http://www.weather.com.cn/weather/'+name_id+'.shtml' 
            city_name = line.split('-')[0].replace("['","").replace("\n","")
            city_china = "\n"+"城市名 : "+city_name+"\n"
            result_list_wt.append(city_china)
            html = get_page(url)
            wea_list = []
            parse_page(html, wea_list)
            print_res(wea_list)
        files.close()
    except:
        print("error")
    # 将获取结果写入到文件内    
    msgs = ''.join(result_list_wt)
    print(msgs)
    with open('weather.China.txt',"w+") as file:
        file.write(msgs)
        
if __name__ == '__main__':
    main()

6.city_list.txt

上海-101020100
苏州-101190401
无锡-101190201
南京-101190101
镇江-101190301
宜兴-101190203
扬州-101190601
常州-101191101
杭州-101210101
宁波-101210401
义乌-101210904
温州-101210701
台州-101210601
湖州-101210201
金华-101210901
绍兴-101210507

7.用途

1.推送到企业微信
2.推送到叮叮
3.可定制@固定人员或推送到指定群组
4.变成机器人提醒
5.定时抓取判断当前城市的天气情况,应用到不同的业务场景

8.写入本地文件内容
python-爬取中国天气网7天天气并保存至本地

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Stella981 Stella981
3年前
List的Select 和Select().tolist()
List<PersondelpnewList<Person{newPerson{Id1,Name"小明1",Age11,Sign0},newPerson{Id2,Name"小明2",Age12,
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
66行代码爬取指定城市当前天气状况
本次是一个爬虫案例,要爬的站点是这个:http://www.weather.com.cn/(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.weather.com.cn%2Fforecast%2F),目标是爬取指定城市当前的天气状况。分析网站首先来到目标数
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这