Python爬虫

北温如言

于 2022-08-03 11:24:59 发布

阅读量293

点赞数

分类专栏： python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_45616785/article/details/126136973

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Python爬取网页信息

项目划分

安装python
安装爬虫所需要的包
爬取网页

安装pyhton

基于树莓派上进行的Python处理的，不适用windows系统

一、安装Python3.6

1.在安装Python以前，先更新一下软件库

sudo  apt-get  update
sudo  apt-get  upgrade -y

2.下载并解压Python3.6

wget https://www.python.org/ftp/python/3.6.1/Python-3.6.13.tgz
tar -zxvf Python-3.6.13.tgz
cd Python-3.6.13

3.编译安装Python3,6

sudo ./configure && sudo make && sudo make install

二、建立Python的软连接

1.查看安装位置

which python3.6

2.建立软连接

sudo ln -s 安装软件位置 /usr/bin/python3.6

三、查看是否安装成功

python3.6 -V

如果显示版本号的话，则就安装成功

安装爬虫所需要的包

pip install requests  # 网页请求库
pip install lxml  # 网页处理库
pip install re  # 字符串匹配
pip install json  # json数据处理

依次安装这四个库，保证能够成功使用。

爬取网页信息

一、引入所有需要的库文件

import requests
from lxml import etree
import re
import json

二、初始化数据，用于存储数据信息

list_weibo = {} # 定义一个列表存储数据

三、伪装请求地址，并请求数据

url = 'https://weibo.com/ajax/side/hotSearch'  # 注意有些不能通过网址所展示地址获取信息
# 伪装请求头
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'}
strHtml = requests.get(url,headers = header)
# 设置网页编码信息,以防止获取的数据乱码
strHtml.encoding = 'utf-8'

四、根据返回的数据解析数据

 text = strHtml.text
 json_file = json.loads(text)

根据地址获取的JSON部分数据

返回的数据是JSON格式

五、根据JSON的格式获取相对应的数据

list_weibo[json_file['data']['hotgov']['note']] =  json_file['data']['hotgov']['url']

# 根据条件进行数据处理
for i in strHtml.json().get('data').get('realtime'):
	if(i.get('ad_type') != None):
		continue
	list_weibo[i.get('note')] =  i.get('raw_hot')
        if i.get('rank') > 9:
            break