数据分析三个步骤:
- 获取数据
- 方法一:获取已有数据:数据库
- 方法二:系统获取数据:埋点获取
- 方法三:获取互联网数据:爬虫
- 分析数据
- 结果呈现
爬虫基本原理:
- 浏览器推荐:Google、Firefox
- 爬虫定义:一段代码,能够自动从互联网上收集需要的东西
- 源于互联网的两个特性:
- 信息可获取
- 信息具有关联性
- 爬虫用什么实现
- 理论上所有能运行的计算机语言:JavaScript,Java,PHP,Python……
- Python是天命所归
- 爬虫知识体系
- 法律风险——遵纪守法
- 爬取的信息必须是能看到的公开的信息
- 高频次访问对方网站属于攻击行为