python爬虫学习第一天

文章介绍了Robots协议作为互联网抓取的道德规范,以及爬虫的基本步骤,包括使用request和urllib获取网页,用BeautifulSoup解析数据,将数据存储到txt、csv或数据库如MySQL、MongoDB等。还提到了进阶技巧如多进程抓取和处理中文乱码。
摘要由CSDN通过智能技术生成

目录

前言

学习爬虫不要心急,慢慢来收获会很多。

可能你对此一无所知,但今天我要向你介绍一种技术——“爬虫”。顾名思义,爬虫就像一只小虫子一样,穿梭在万维网中,收集你所需要的各种信息。


一、Robots协议是什么?

        Robot协议是国际互联网通行的道德规范,告诉人们那个可以抓,那个不可以抓,但是没有写入法律。

二、爬虫的使用步骤

1.获取网页

基础技术:request,urllib,selenium(模拟浏览器)。

进阶技术:多进程多线程抓取,登录抓取,突破IP封禁,服务器抓取。

2.解析数据

基础技术:re正则表达式,BeautifulSoup,lxml。

进阶技术:解决中文乱码。

3.存储数据

基础技术:存入txt文件,存入csv文件。

进阶技术:存入MySQL数据库,存入MongoDB数据库。


总结

学习完毕

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值