python爬取2019国庆热门景点1——数据爬取与保存

本文介绍如何使用Python爬取去哪儿网2019国庆热门景点信息,包括景点名称、地区、评分等,并保存为Excel文件。通过分析网页源代码,抓取所需数据,利用pandas进行数据整合并解决保存过程中遇到的问题。
摘要由CSDN通过智能技术生成

据文化和旅游部综合测算,2019年国庆7天全国共接待国内游客7.82亿人次,同比增长7.81%,今年真的太疯狂了。不知道回城搬砖的伙伴们国庆假期过的如何,哈哈哈题外话,想知道这个国庆哪些景点便宜又好玩吗?可以给明年的行程提前了。
本文主要介绍数据的获取,以去哪儿网为例,打开去哪儿网首页,点击门票,搜索关键字“国庆”,网址url=https://piao.qunar.com/ticket/list.htm?keyword=%E5%9B%BD%E5%BA%86&region=&from=mps_search_suggest%24page&page=,如下图
在这里插入图片描述
现在右击该页面,打开源代码,这里说一下,用谷歌浏览器和普通IE浏览器打开时,右击出现的页面不同,我比较喜欢源代码,所以利用谷歌浏览器打开的,如下图
在这里插入图片描述

1.导入包(这些包之后会用过,实际中根据需要添加)

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import random

2.爬取每个页面的信息

我们以第一页为例,爬取景点名称、地区、评分、星级、简介、票价、销量这些信息,观察源代码需要寻找每个属性对应的标签,从标签下获取,就跟剥洋葱一样,一层一层向内找,找最近的。

#爬取每个页面的信息
def pagespider(url):
    content=requests.get(url)
    content=content.text
    soup=BeautifulSoup(content,"html.parser")
    #找div和attrs下的所有记录,每条记录相当于一个列表
    soup=soup.find_all("div",attrs={
   "class":"sight_item"})
    name = []
    star = []
    month_sales = []
    price = []
    info = []
    district=[]
    hotsum=[]
    data 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值