python爬虫
.松鼠小白.
这个作者很懒,什么都没留下…
展开
-
scrapy框架,scrapy-redis(使scrapy能做分布式)
1、创建一个项目原创 2019-11-14 21:24:56 · 248 阅读 · 0 评论 -
python爬虫第七天(进程,线程,多线程的创建方法,多进程和多线程的优缺点,死锁,流程)
第七天 1.什么是程序,进程和线程 程序:一个应用可以当做一个程序,比如qq软件 进程:程序运行最小的资源分配单位。一个程序可以有多个进程 线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立的资源,所有线程共享他所在进程的资源 2.线程没有独立的资源,所有线程共享他所在进程的资源 3、创建多线程的第一种方法: (1)导包 import threading (2)创建一个线程 t = th...原创 2019-11-05 20:17:45 · 155 阅读 · 0 评论 -
python爬虫第六天(selenium+phantomjs)
第六天原创 2019-11-02 16:13:11 · 176 阅读 · 0 评论 -
python 爬虫第五天(反爬措施以及对应措施,动态html页面的处理方法)
第五天原创 2019-11-02 14:52:03 · 353 阅读 · 0 评论 -
python 爬虫第四天(xml,xpath)
第四天xmlxpath xml 1.什么是xml 1.定义:xml称为可扩展标记语言 html:超文本标记语言 2.特点:xml具有自描述特性,是一种半结构化数据。 3.作用:xml的设计宗旨是用来传输数据 2.xml 和 html 的区别 1.语法要求不同:xml的语法要求更严格 (1)在html中不区分大小写,在xml中严格区分 (2)在...原创 2019-10-31 21:58:03 · 203 阅读 · 0 评论 -
python 爬虫第三天(cookie 和 session 和 代理,数据的分类,json数据,正则表达式)
第三天cookie 和 session 和 代理数据的分类json数据正则表达式 cookie 和 session 和 代理 1.产生的原因 由于http 是一个无状态的协议,每次请求如果需要之前请求的一些信息,此时必须重发之前的请求。为了解决这种问题,产生了一种记录状态的技术,就是cookie和session。 2、cookie是在客户端记录状态。session是在服务端记录状态。 3、在做爬虫...原创 2019-10-29 22:20:08 · 383 阅读 · 0 评论 -
python 爬虫第二天( requests模块)
第二天requests模块get请求requests模块的post请求 requests模块get请求 1.步骤 步骤: 1.导包 import requests 2.确定请求的url base_url='' 3.发送请求,获取响应 response=requests.get( base_url, #请求的url headers={}, #请求头 params...原创 2019-10-28 20:38:04 · 251 阅读 · 0 评论 -
python 爬虫第一天(安装anaconda遇到的问题,网络爬虫,搜索引擎,http和https ,爬虫的准备工作,Hash算法)
个原创 2019-10-27 21:28:42 · 755 阅读 · 0 评论