以爬取链家租房信息为例
1. 导入包和设置环境
#coding:utf-8
#by:xavier(xavier9410@163.com)
import requests
import time
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0x?? in position 1: ordinal not in range(128),python没办法处理非ascii编码的,此时需要自己设置将python的默认编码,一般设置为utf8的编码格式。
2. 获取网页源代码(以爬取两页信息为例)
url='https://bj.lianjia.com/zufang/'
headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'} #设置头部信息,将代码伪装成浏览器访问
for i in range(1,3):
if i==1:
tmp_url=url+'/