python 爬取静态网页步骤详解

最新推荐文章于 2024-08-11 03:38:42 发布

xavierri

最新推荐文章于 2024-08-11 03:38:42 发布

阅读量1.4k

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/xavierri/article/details/78697677

版权

本文详细介绍了如何使用Python进行静态网页数据爬取，包括设置编码环境，利用requests和BeautifulSoup获取网页源代码，通过XPath解析所需内容，并将数据导出到Excel表格。以链家租房信息爬取为例，展示了完整步骤。

摘要由CSDN通过智能技术生成

以爬取链家租房信息为例

1. 导入包和设置环境

#coding:utf-8
#by:xavier(xavier9410@163.com)

import requests
import time
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

python在安装时，默认的编码是ascii，当程序中出现非ascii编码时，python的处理常常会报这样的错UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0x?? in position 1: ordinal not in range(128)，python没办法处理非ascii编码的，此时需要自己设置将python的默认编码，一般设置为utf8的编码格式。

2. 获取网页源代码（以爬取两页信息为例）

url='https://bj.lianjia.com/zufang/'
headers = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}   #设置头部信息，将代码伪装成浏览器访问

for i in range(1,3):
    if i==1:
        tmp_url=url+'/