http://beautifulsoup.readthedocs.io/zh_CN/latest/ 这是官方文档
利用BS对安居客上主要信息的爬取。
红框框内的就是这次爬取的主要信息,bs对于正则表达式来说,简单了许多,比如说:
利用F12加F5,进行查询,当我们查看,我们需要的信息在哪一个类的下面,它的标签是什么。当我们需要的时候用什么标签进行提取,还有具体不懂的地方可以进行观看官方文档。
这是全部的代码:
#!/usr/bin/python # -*- coding: utf-8 -* from bs4 import BeautifulSoup import urllib import urllib2 import re import os i=1 for i in range(1,7): url=' https://beijing.anjuke.com/tycoon/pi' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read() soup=BeautifulSoup(content) text=soup.find_all('div',class_='jjr-itemmod') for k in text: s=(k.get_text(strip=True))+'\n' print s f1 = open('58.txt','a') f1.write(s.encode('UTF-8')) f1.close()