Python爬虫——保存至csv

import requests
from lxml import etree
import json
import csv
class BookSpider(object):
    def __init__(self):
        self.base_url = "http://www.allitebooks.org/page/{}/"
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
        self.data_list =[]

    #构建所有的url
    def get_url_list(self):
        url_list = []
        for i in range(3):
            url = self.base_url.format(i)
            url_list.append(url)
        return url_list
    #2、发送请求
    def send_request(self,url):
        data = requests.get(url,headers=self.headers).content.decode()
        return data

    #3、解析数据
    def parse_xpath_data(self,data):
        parse_data = etree.HTML(data)
        #解析出所有的书
        book_list = parse_data.xpath('//div[@class="main-content-inner clearfix"]/article')
        #解析出每本书的信息

        #1、书名字

        for book in book_list:
            book_dict={}
            book_dict["book_name"] = book.xpath('.//h2[@class="entry-title"]//text()')[0]

        #2、书的图片
            book_dict["book_img_url"] = book.xpath('div[@class="entry-thumbnail hover-thumb"]/a/img/@src')[0]


        #3、书的作者
            book_dict["book_author"]=book.xpath('.//h5[@class="entry-author"]/a/text()')[0]
        #4、书的简介
            book_dict["book_info"] = book.xpath('.//div[@class="entry-summary"]/p/text()')[0]
           # print(book_info)
            self.data_list.append(book_dict)




    #4、保存数据
    def save_data(self):
         json.dump(self.data_list,open("04book.json","w"))

         json_fd = open("04book.json", "r")
         csv_fd = open("04.csv", "w",encoding='utf-8')

    # 2、提出表头,表内容
    # 将字符串转化成列表
         data_list = json.load(json_fd)
         sheet_title = data_list[0].keys()
         sheet_data = []
         for data in data_list:

             sheet_data.append(data.values())

    # 3、csv写入器
         writer = csv.writer(csv_fd)
    # 4、写入表头
         writer.writerow(sheet_title)
    # 5、写入内容

         writer.writerows(sheet_data)
    # 6、关闭两个文件
         json_fd.close()
         csv_fd.close()

    #统筹调用
    def start(self):
         url_list =self.get_url_list()
         for url in url_list:
            data =self.send_request(url)

            self.parse_xpath_data(data)
            self.save_data()

BookSpider().start()
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
采集城市公交、地铁站点和线路数据可以帮助我们更好地了解城市公共交通系统的运作情况,为城市交通规划和出行提供参考。下面是一个基于Python爬虫示例,可以用来采集城市公交、地铁站点和线路数据。 1. 确定爬取的网站 首先需要确定你想要采集的城市公交、地铁站点和线路数据所在的网站。常见的网站有: - 公交线路查询网站,如高德地图、百度地图等; - 公交、地铁运营公司的官方网站; - 公交、地铁相关的开放数据平台,如城市公共交通数据开放平台等。 2. 分析网站结构 在确定了采集的网站后,需要分析网站的结构,了解需要爬取的数据所在的页面、标签和属性等信息。可以使用开发者工具来帮助分析网站结构。 3. 使用Python爬虫代码采集数据 在分析了网站结构后,可以使用Python编写爬虫代码来采集数据。其中需要用到的模块包括: - requests:用于发送HTTP请求,获取网页内容; - BeautifulSoup4:用于解析HTML页面,提取所需数据; - pandas:用于数据处理和存储。 下面是一个示例代码,可以爬取高德地图上北京市公交线路数据: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 获取公交线路列表页面 url = 'https://ditu.amap.com/bus/beijing' r = requests.get(url) # 解析HTML页面,获取所有公交线路名称及其链接 soup = BeautifulSoup(r.text, 'html.parser') lines = soup.find_all('a', {'class': 'bus-tit'}) # 遍历每个公交线路,获取站点信息 data = [] for line in lines: line_name = line.text line_url = 'https:' + line['href'] r = requests.get(line_url) soup = BeautifulSoup(r.text, 'html.parser') stations = soup.find_all('div', {'class': 'station-name'}) station_names = [s.text for s in stations] data.append({'line': line_name, 'stations': station_names}) # 将数据保存CSV文件 df = pd.DataFrame(data) df.to_csv('bus_lines.csv', index=False) ``` 运行以上Python代码后,将会在当前文件夹下生成一个名为bus_lines.csvCSV文件,其中包含了所有北京市公交线路及其站点信息。 以上示例代码仅为一个简单的示例,实际应用中可能需要更复杂的爬虫代码来处理数据。同时,需要注意合法使用爬虫,遵守相关法律法规。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值