Python爬虫第一练，爬取13个旅游城市游客数据

最新推荐文章于 2024-07-12 22:58:11 发布

茵茵学习编程

最新推荐文章于 2024-07-12 22:58:11 发布

阅读量2k

点赞数 2

本文链接：https://blog.csdn.net/weixin_53455146/article/details/112876805

版权

本文介绍了使用Python爬虫技术，结合BeautifulSoup、requests和pymongo模块，从去哪儿网抓取北京等13个热门城市的旅游景点信息，并存储到MongoDB数据库中。数据包括景区名称、地址、售票数、经纬度和价格。后续通过数据分析，展示了最受欢迎的15个景区的月销量排行榜。

摘要由CSDN通过智能技术生成

1.需要用到的Python模块：
BeautifulSoup、requests、pymongo、pylab

2.方法：
通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区人们景点景区信息，再通过BeautifulSoup去分析提取我们需要的信息
目前只爬取了前4页的景点信息，每页有15个景点。
（该程序所查找的网页无反爬措施，直接请求可以进入）
这里随机选取13个热门城市：北京，上海，广州，深圳，武汉，成都，三亚，重庆，西安，杭州，厦门，大连，苏州。所爬取数据保存到了MongoDB数据库

爬虫部分完整代码如下：

import requests
from bs4 import BeautifulSoup
from pymongo import MongClient
class QuNaEr():
def_init_(self,keyword,page=1):
self.keyword=keyword
self.page=page
def qne_spider(self):
url=‘https:piao.qunar.com/ticket/list.htm?keyword=%s&region&from=mpl_search_suggest&page=%s’%(self.keyword,self.page)
response=requests.get(url)
response.encoding=‘utf-8’
text=response.text
b