python爬虫第七讲-正则表达式下和csv模块的使用

最新推荐文章于 2022-03-15 14:24:10 发布

yerennuo

最新推荐文章于 2022-03-15 14:24:10 发布

阅读量331

点赞数

本文链接：https://blog.csdn.net/yerennuo/article/details/117622136

版权

正则表达式下和csv模块的使用

正则下
csv模块的读写
- 写入方法
- 读取方法
天气案例实现

正则下

请点击查看

split方法

import re

s = '1+2+3/4*5'
print(re.split(r'\D', s))
print(re.split(r'\D', s, maxsplit=2))

在这里插入图片描述

csv模块的读写

是python的一个内置模块跨多种形式导入导出数据的模块
我们爬取了一些数据 txt json html xlsx … 也可以把数据保存到csv的这种格式当中文件的后缀就是xxx.csv
可以通过excel来打开csv文件

写入数据
1 通过创建writer对象，主要用到2个方法。一个是writerow，写入一行。另一个是writerows写入多行
2 使用DictWriter 可以使用字典的方式把数据写入进去

读取数据

1 通过reader()读取到的每一条数据是一个列表。可以通过下标的方式获取具体某一个值
2 通过DictReader()读取到的数据是一个字典。可以通过Key值(列名)的方式获取数据

写入方法

import csv

# 方法1 writer
persons = [('顾云', 18, 180), ('海兵局势', 25, 188), ('百味', 31, 175)]
headers = {'name', 'age', 'height'}
with open('person.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(headers)
    writer.writerows(persons)


# 方法2 Dictwriter
persons = [
    dict(name='顾云2', age=18, height=180),
    dict(name='海兵局势2', age=25, height=188),
    dict(name='百味2', age=31, height=175),
]
headers = {'name', 'age', 'height'}
with open('person.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.DictWriter(f, headers)
    writer.writeheader()
    writer.writerows(persons)

读取方法

with open('H:\pythonProject\爬虫\person.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f) #或 reader = csv.DictReader(f)
    for i in reader:
        print(i)

天气案例实现

需求:爬取长沙地区未来7天的天气状况 (日期天气状况温度风力)并保存到csv文件里面
目标url
http://www.weather.com.cn/weather/101250101.shtml 7天的
http://www.weather.com.cn/weather15d/101250101.shtml 8-15天的
http://www.weather.com.cn/weather40d/101250101.shtml 40天
第一步页面分析
通过分析页面的结构我们发现 7天的数据都是在 ul标签里面 ul标签内部的每一个li标签就是我们今天要爬取的数据
1.向目标url发起请求获取网页源码(html文件)
2.从网页源码当中去匹配ul标签的数据
3.从ul标签里面去匹配li标签的数据
4.解析li标签的数据(要爬取的内容)
5.通过csv保存数据

第二步实现步骤
见代码

import requests
import re
import csv


class Weather(object):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 '
    }

    def __init__(self):
        pass

    def html_get(self):
        url = 'http://www.weather.com.cn/weather/101250101.shtml'
        req = requests.get(url, headers=self.headers)
        return req.content.decode('utf-8')

    def sourse(self):
        content = self.html_get()
        s = re.match(r'.*?(<ul class="t clearfix">.*?</ul>).*?', content, flags=re.S).group(1)
        lst = re.findall(r'<li class=.*?>.*?</li>', s, flags=re.S)
        sourse_all = []
        for i in lst:
            pattern = re.compile(r'<li.*?>.*?<h1>(.*?)</h1>.*?<p.*?>(.*?)</p>.*?<i>(.*?)</i>.*?<i><(.*?)</i>.*?</li>',
                                 re.S)
            r = pattern.match(i)
            day = [r.group(1), r.group(2), r.group(3), r.group(4)]
            sourse_all.append(day)
        return sourse_all

    def write_s(self):
        headers = ['日期', '天气', '温度', '风力']
        with open('天气预报.csv', 'w', encoding='utf-8', newline='') as f:
            w = csv.writer(f)
            w.writerow(headers)
            w.writerows(self.sourse())


Weather().write_s()

yerennuo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
python爬虫第七讲-正则表达式下和csv模块的使用

正则表达式下和csv模块的使用正则下csv模块的读写写入方法读取方法天气案例实现正则下请点击查看split方法import res = '1+2+3/4*5'print(re.split(r'\D', s))print(re.split(r'\D', s, maxsplit=2))csv模块的读写是python的一个内置模块跨多种形式导入导出数据的模块我们爬取了一些数据 txt json html xlsx … 也可以把数据保存到csv的这种格式当中文件的后缀就是xxx.cs
复制链接

扫一扫