爬虫
文章平均质量分 85
菜鸟可以飞
编程菜鸟一个,此处仅供自己学习笔记用,如果对大家有一点点帮助那将倍感荣幸,若有不对之处请多多指教勿喷。
展开
-
python爬虫基础:requests、urllib2、httplib2
最基本的爬虫抓取requests:import requests # python3response = requests.get("http://wwww.baidu.com")content = response.contentprint("headers:", response.headers)print("content:", content)urllib2:import urllib...原创 2018-03-22 20:50:15 · 333 阅读 · 0 评论 -
爬虫基础-User-Agent
一、基础知识篇:HttpHeader之User-AgentUserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问...原创 2018-03-21 11:14:40 · 1343 阅读 · 0 评论 -
python爬虫基础-urllib2附带数据解析
稍微说一下背景,当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律,首先得有数据啊,数据从哪里来?就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候,手动一个个去下显然是不可取的,我们需要写个脚本,能从特定的网站选择性得批量下载需要的信息。python是不错的选择。import urllib#python中用于获取网站的模块import url...原创 2018-04-03 09:59:20 · 17847 阅读 · 5 评论 -
Python反反爬虫-IP代理池的建立和使用
同一个IP针对一个网站短时间内大量的访问通常会导致IP被封,除了在爬取数据时增加延迟(爬取量不大或者对爬取速度没要求),还有一个好方法就是使用代理IP,这样就可以完美解决IP被封的问题。那么,问题来了,代理的IP从哪儿来呢,土豪自然随意,直接淘宝买一些代理IP就好,稳定也不是特别贵。但对于技术爱好者,也许并没有那个需求,其实网上还是有很多免费的代理IP的,随意打开百度一搜就是,选择第一个不是广告的...原创 2018-03-29 12:09:06 · 3949 阅读 · 1 评论