数据采集概述
爬虫:批量化自动化从特定网页获取数据的脚本程序
Python爬虫技术
Python爬虫技能:
-
静态网页数据抓取(urllib/requests/BeautifulSoup/lxml)
-
动态网页数据抓取(ajax/phantomjs/selenium)
-
爬虫框架(scrapy)
-
补充知识:前端知识、数据库知识、文本处理技术
Python爬虫环境配置 -
平台:windows7/10
-
Python开发套件:anaconda 3.5以上(Python3.6)
-
MySQL数据库
-
mongoDB数据库
-
Navicat数据库客户端
-
PyCharm集成开发环境
-
chrome浏览器
Python爬虫四步基本框架 -
请求 urllib/requests
-
解析 BeautifulSoup/lxml
-
提取 css选择器/xpath表达式/正则表达式
-
存储 csv/MySQL/mongoDB等
urllib: python的标准库,提供了一系列操作URL的功能
直接使用ur