Python爬虫

Python爬取网页信息

项目划分

  1. 安装python
  2. 安装爬虫所需要的包
  3. 爬取网页

安装pyhton

基于树莓派上进行的Python处理的,不适用windows系统

一、安装Python3.6

1.在安装Python以前,先更新一下软件库

sudo  apt-get  update
sudo  apt-get  upgrade -y

2.下载并解压Python3.6

wget https://www.python.org/ftp/python/3.6.1/Python-3.6.13.tgz
tar -zxvf Python-3.6.13.tgz
cd Python-3.6.13

3.编译安装Python3,6

sudo ./configure && sudo make && sudo make install

二、建立Python的软连接

1.查看安装位置

which python3.6

2.建立软连接

sudo ln -s 安装软件位置 /usr/bin/python3.6

三、查看是否安装成功

python3.6 -V

如果显示版本号的话,则就安装成功

安装爬虫所需要的包

pip install requests  # 网页请求库
pip install lxml  # 网页处理库
pip install re  # 字符串匹配
pip install json  # json数据处理

依次安装这四个库,保证能够成功使用。

爬取网页信息

一、引入所有需要的库文件

import requests
from lxml import etree
import re
import json

二、初始化数据,用于存储数据信息

list_weibo = {} # 定义一个列表存储数据

三、伪装请求地址,并请求数据

url = 'https://weibo.com/ajax/side/hotSearch'  # 注意有些不能通过网址所展示地址获取信息
# 伪装请求头
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'}
strHtml = requests.get(url,headers = header)
# 设置网页编码信息,以防止获取的数据乱码
strHtml.encoding = 'utf-8'

四、根据返回的数据解析数据

 text = strHtml.text
 json_file = json.loads(text)

根据地址获取的JSON部分数据

返回的数据是JSON格式

五、根据JSON的格式获取相对应的数据

list_weibo[json_file['data']['hotgov']['note']] =  json_file['data']['hotgov']['url']

# 根据条件进行数据处理
for i in strHtml.json().get('data').get('realtime'):
	if(i.get('ad_type') != None):
		continue
	list_weibo[i.get('note')] =  i.get('raw_hot')
        if i.get('rank') > 9:
            break

):
continue
list_weibo[i.get(‘note’)] = i.get(‘raw_hot’)
if i.get(‘rank’) > 9:
break


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值