据文化和旅游部综合测算,2019年国庆7天全国共接待国内游客7.82亿人次,同比增长7.81%,今年真的太疯狂了。不知道回城搬砖的伙伴们国庆假期过的如何,哈哈哈题外话,想知道这个国庆哪些景点便宜又好玩吗?可以给明年的行程提前了。
本文主要介绍数据的获取,以去哪儿网为例,打开去哪儿网首页,点击门票,搜索关键字“国庆”,网址url=https://piao.qunar.com/ticket/list.htm?keyword=%E5%9B%BD%E5%BA%86®ion=&from=mps_search_suggest%24page&page=,如下图
现在右击该页面,打开源代码,这里说一下,用谷歌浏览器和普通IE浏览器打开时,右击出现的页面不同,我比较喜欢源代码,所以利用谷歌浏览器打开的,如下图
1.导入包(这些包之后会用过,实际中根据需要添加)
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os
import random
2.爬取每个页面的信息
我们以第一页为例,爬取景点名称、地区、评分、星级、简介、票价、销量这些信息,观察源代码需要寻找每个属性对应的标签,从标签下获取,就跟剥洋葱一样,一层一层向内找,找最近的。
#爬取每个页面的信息
def pagespider(url):
content=requests.get(url)
content=content.text
soup=BeautifulSoup(content,"html.parser")
#找div和attrs下的所有记录,每条记录相当于一个列表
soup=soup.find_all("div",attrs={
"class":"sight_item"})
name = []
star = []
month_sales = []
price = []
info = []
district=[]
hotsum=[]
data