python爬取2019国庆热门景点1——数据爬取与保存

最新推荐文章于 2023-06-12 23:32:44 发布

天天要向上

最新推荐文章于 2023-06-12 23:32:44 发布

阅读量1.2k

点赞数 1

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44460780/article/details/102469173

版权

本文介绍如何使用Python爬取去哪儿网2019国庆热门景点信息，包括景点名称、地区、评分等，并保存为Excel文件。通过分析网页源代码，抓取所需数据，利用pandas进行数据整合并解决保存过程中遇到的问题。

摘要由CSDN通过智能技术生成

据文化和旅游部综合测算，2019年国庆7天全国共接待国内游客7.82亿人次，同比增长7.81%，今年真的太疯狂了。不知道回城搬砖的伙伴们国庆假期过的如何，哈哈哈题外话，想知道这个国庆哪些景点便宜又好玩吗？可以给明年的行程提前了。
本文主要介绍数据的获取，以去哪儿网为例，打开去哪儿网首页，点击门票，搜索关键字“国庆”，网址url=https://piao.qunar.com/ticket/list.htm?keyword=%E5%9B%BD%E5%BA%86&region=&from=mps_search_suggest%24page&page=,如下图
在这里插入图片描述
现在右击该页面，打开源代码，这里说一下，用谷歌浏览器和普通IE浏览器打开时，右击出现的页面不同，我比较喜欢源代码，所以利用谷歌浏览器打开的，如下图

1.导入包（这些包之后会用过，实际中根据需要添加）

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import random

2.爬取每个页面的信息

我们以第一页为例，爬取景点名称、地区、评分、星级、简介、票价、销量这些信息，观察源代码需要寻找每个属性对应的标签，从标签下获取，就跟剥洋葱一样，一层一层向内找，找最近的。

#爬取每个页面的信息
def pagespider(url):
    content=requests.get(url)
    content=content.text
    soup=BeautifulSoup(content,"html.parser")
    #找div和attrs下的所有记录，每条记录相当于一个列表
    soup=soup.find_all("div",attrs={
   "class":"sight_item"})
    name = []
    star = []
    month_sales = []
    price = []
    info = []
    district=[]
    hotsum=[]
    data