![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 90
拯救发际线的张哈哈
这个作者很懒,什么都没留下…
展开
-
进程、线程(多线程)、互斥锁、死锁、爬取网站流程
文章目录进程一、程序、进程和线程二、多线程三、创建多线程四、线程生存期五、查看线程数量六、创建线程七、线程类传参八、线程类格式化字符串的三种方法九、线程的执行顺序线程的五种状态:十、线程不安全问题十一、多线程和多进程*(一)多线程优点缺点(二)多进程优点缺点十二、互斥锁十三、死锁metuxflag = metux.acquire()十四、爬取网站的流程进程一、程序、进程和线程程序:一个应用可...原创 2019-11-04 19:47:40 · 203 阅读 · 0 评论 -
用selenium+phantomjs来请页面的流程
流程# 1.导包from selenium import webdriver# 2.创建driver对象driver = webdriver.Phantomjs()# 3.请求urldriver.get(url)# 4.等待time.sleep(5)# 5.获取页面内容html = driver.page_source# 6.用lxml模块解析页面内容tree = etre...原创 2019-11-04 19:44:13 · 89 阅读 · 0 评论 -
安装anaconda中遇到多版本兼容
遇到多版本兼容怎么办?有python和anaconda两个,想用anaconda如何配置环境变量?path环境变量的意义:让系统找到一些exe文件。1.如何配置?(1)配置一下路径:C:\Anaconda3----python.exeC:\Anaconda3\Scripts----pip.exe(2)把这两个目录放在path最前面。这样系统在找python和pip的时候会先找到anac...原创 2019-11-04 19:35:54 · 557 阅读 · 0 评论 -
反爬以及解决方法、爬取网站的流程、注意事项、可迭代对象和迭代器
一、爬取网站的流程确定网站那个url是数据的来源简要分析一下网站结构,查看数据一般放在哪里查看是否有分页,解决分页的问题发送请求,查看response.text里面是否有想要的数据内容如果有数据,就用响应的提取数据的方法提取数据保存二、注意事项:刚开做爬虫项目,先不要用类去做,只需要关注数据的来源等问题的解决,不要关注类结构的设计。三、可迭代对象和迭代器可迭代对象就是有__i...原创 2019-10-31 19:50:49 · 346 阅读 · 0 评论 -
html
文章目录html(一)什么是html(二)xml和html的区别1.语法要求同:2.作用不同:3.标记不同:(三)xpath1.什么是xpath?2.xpath语法内容(四)在python中如何使用xpath?html(一)什么是htmlxml称为可扩展标记性语言xml具有自描述特征性,是一种半结构化数据xml的设计宗旨是用来传输数据(二)xml和html的区别1.语法要求同:...原创 2019-10-30 19:45:13 · 121 阅读 · 0 评论 -
爬虫-cookie和session、数据、正则表达式
一、cookie和session产生的原因:由于http是一个无状态的协议没每次请求如果需要之前请求的一些信息,此时必须重新发送之前的请求。为了结局这种问题,产生了一种记录状态技术,就是cookie和session。cookie实在客户端记录状态。session是在服务端记录状态。在做爬虫的时候,如果要实现登录,只需要将浏览器中登录后的cookie信息封装到请求头中就可以实现登...原创 2019-10-29 20:44:51 · 250 阅读 · 0 评论 -
requests模块:get请求、post请求
一、requests模块(一)get请求步骤:导包import requests确定请求的urlbase_url = ‘’发送请求,获取响应reponse = requests.get(url = base_url,# 请求的urlheaders = {},# 请求头params = {},# 请求参数字典)response这个对象包含的内容都有以下几个:状态码:...原创 2019-10-28 19:26:44 · 226 阅读 · 0 评论 -
爬虫基础、http和https
一、爬虫网络爬虫的定义:自动的抓取互联网上的信息的程序或者脚本(一)爬虫可以解决的问题解决冷启动问题搜索引擎的根基建立知识图谱,帮助建立机器学习知识图谱可以制作各种商品的比价软件,趋势分析二、通用爬虫和聚焦爬虫根据使用场景,网络爬虫分为通用爬虫和聚焦爬虫。(一)通用爬虫搜索引擎搜索引擎的主要组成通用爬虫:将互联网页面整体爬取下来后,保存在本地。(没有做数据清洗的)通...原创 2019-10-27 21:59:13 · 1032 阅读 · 0 评论