Python&Java网页爬虫
zcy0xy
这个作者很懒,什么都没留下…
展开
-
http响应状态码大全(转)
http状态返回代码 1xx(临时响应)表示临时响应并需要请求者继续执行操作的状态代码。http状态返回代码: 代码 说明100 (继续) 请求者应当继续提出请求。 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换。http状态返回代码 2xx (成功)表示成功转载 2016-11-28 14:34:53 · 2052 阅读 · 0 评论 -
Http传输Header一览
response header:Date 服务器端时间Server 服务器端的服务器软件 Apache/2.2.6Etag 文件标识符Content-Encoding传送启用了GZIP压缩 gzipContent-Length 内容长度Content-Type 内容类型请求Header(HTTP request header ):Host 请求的域名转载 2016-11-28 14:40:03 · 1182 阅读 · 0 评论 -
Cookie学习笔记
简介:会话跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。查看某个网站颁发的Cookie很简单:在浏览器地址栏输入JavaScript:alert (document. cookie)Cookie具有不可跨域原创 2016-11-28 14:41:18 · 236 阅读 · 0 评论 -
Http学习笔记——报文类别
在 MIME 扩展中会使用一种称为多部分对象集合(Multipart)的方法,来容纳多份不同类型的数据。包含的对象如下:form-data在 Web 表单文件上传时使用。byteranges状态码 206(Partial Content,部分内容)响应报文包含了多个范围的内容时使用。在 HTTP 报文中使用多部分对象集合时,需要在首部字段里加上“Content-ty原创 2016-11-28 14:42:31 · 339 阅读 · 0 评论 -
Scrapy学习笔记一
scrapy新建 scrapy startproject 项目名字新建后的目录:scrapy.cfg:项目的配置文件tutorial/:项目的Python模块,将会从这里引用代码tutorial/items.py:项目的items文件tutorial/pipelines.py:项目的pipelines文件tutorial/settings.py:项目的设置文件tu原创 2016-12-03 08:40:48 · 472 阅读 · 0 评论 -
webdriver相关操作
from selenium import webdriverfrom selenium.common.exceptions import NoSuchElementException选择浏览器: driver = webdriver.Firefox()打开url: driver.get("http://www.baidu.com")等待: driver.implicitly_wai转载 2016-12-04 11:59:06 · 292 阅读 · 0 评论