B站2020年每周必看热门视频数据盘点！Python数据分析

本文链接：https://blog.csdn.net/weixin_43881394/article/details/112307724

1.数据抓取

数据集的获取是我们进行数据分析的第一步。现在获取数据的主要途径一般为：现成数据；自己写爬虫去爬取数据；使用现有的爬虫工具爬取所需内容，保存到数据库，或以文件的形式保存到本地。博主用的是用自己编写的爬虫代码获得数据。（爬虫源代码可以找博主要，在评论区回复即可）

爬虫的设计思路

1.首先确定需要爬取网页URL地址 2.通过HTTP/HTTPS协议来获取相应的HTML页面 3.提取HTML页面里有用的数据 a.如果是需要的数据就保存起来 b.如果是页面里的其他URL，那就继续执行第二步。

爬虫基本流程

发起请求通过HTTP库向目标站点发起请求，就是发送一个Request，请求可以包含额外的header等信息，等待服务器的响应获取响应内容如果服务器正常响应，会得到一个Reponse,Reponse的内容便是所要获取的页面内容，类型可能有HTML，json字符串，二进制数据（如图片视频）等类型。解析内容得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析，可能是json，可以直接转为JSON解析对象解析，可能是二进制数据，可以做保存或者进一步处理。保存数据保存的形式多种多样，可以保存成文本，也可以保存到数据库，或者保存特定格式文件

反爬虫机制与对策

1 通过分析用户请求的Headers信息进行反爬虫。网站中应用的最多 2通过验证用户行为进行反爬虫，不如通过判断同一个ip在短时间内是否频繁访问对应网站等进行分析。 3通过动态页面增加爬取的难度，达到反爬虫目的。对策 1 在爬虫中构造这些用户请求的headers信息，以此将爬虫伪装成浏览器 2 使用代理服务器并经常切换代理服务器方式，一般就能够攻克限制。 3.利用一些软件，比如selenium+phantomJS就可以攻克反爬虫的手段：user-agent、代理、验证码、动态数据加载、加密数据