1.需要用到的Python模块:
BeautifulSoup、requests、pymongo、pylab
2.方法:
通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区人们景点景区信息,再通过BeautifulSoup去分析提取我们需要的信息
目前只爬取了前4页的景点信息,每页有15个景点。
(该程序所查找的网页无反爬措施,直接请求可以进入)
这里随机选取13个热门城市:北京,上海,广州,深圳,武汉,成都,三亚,重庆,西安,杭州,厦门,大连,苏州。所爬取数据保存到了MongoDB数据库
爬虫部分完整代码如下:
import requests
from bs4 import BeautifulSoup
from pymongo import MongClient
class QuNaEr():
def_init_(self,keyword,page=1):
self.keyword=keyword
self.page=page
def qne_spider(self):
url=‘https:piao.qunar.com/ticket/list.htm?keyword=%s®ion&from=mpl_search_suggest&page=%s’%(self.keyword,self.page)
response=requests.get(url)
response.encoding=‘utf-8’
text=response.text
b