目录
前言
学习爬虫不要心急,慢慢来收获会很多。
可能你对此一无所知,但今天我要向你介绍一种技术——“爬虫”。顾名思义,爬虫就像一只小虫子一样,穿梭在万维网中,收集你所需要的各种信息。
一、Robots协议是什么?
Robot协议是国际互联网通行的道德规范,告诉人们那个可以抓,那个不可以抓,但是没有写入法律。
二、爬虫的使用步骤
1.获取网页
基础技术:request,urllib,selenium(模拟浏览器)。
进阶技术:多进程多线程抓取,登录抓取,突破IP封禁,服务器抓取。
2.解析数据
基础技术:re正则表达式,BeautifulSoup,lxml。
进阶技术:解决中文乱码。
3.存储数据
基础技术:存入txt文件,存入csv文件。
进阶技术:存入MySQL数据库,存入MongoDB数据库。
总结
学习完毕