自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 收藏
  • 关注

原创 Python进制的转换、位运算规则

1. 进制的转换binary:二进制;octal:八进制;十六进制:hexadecimal1.1 其他进制转换为十进制使用int(其他进制数据,进制),返回数据对应的十进制,其中数据要用字符串形式注意事项:数据不可以加形如{‘0b’,‘0x’,‘0o’}的代表进制的字符<span style="color:#000000"><code class="language-python"><span style="color:#669900...

2020-11-09 09:38:12 115

原创 关于如何设置python爬虫请求消息头(headers)

简述在使用python爬虫爬取数据的时候,经常会遇到一些网站的反爬虫措施,一般就是针对于headers中的User-Agent,如果没有对headers进行设置,User-Agent会声明自己是python脚本,而如果网站有反爬虫的想法的话,必然会拒绝这样的连接。而修改headers可以将自己的爬虫脚本伪装成浏览器的正常访问,来避免这一问题。设置方法使用requests请求页面时import requestsheaders = { 'Accept': '*/*', ...

2020-11-08 10:25:11 1265

原创 java爬虫与python爬虫 流程

前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求java版的代码如下:public String call (String url){ String content = ""; BufferedReader in = null; try{ ...

2020-11-08 10:22:11 678

原创 很多人还不清楚 Python爬虫基本流程

爬虫定义爬虫是请求网站并提取自己所需要数据的过程。通过我们的程序,可以代替我们向服务器发送请求,然后进行批量的数据下载。爬虫基本流程发起请求通过url向服务器发送requests请求,请求可以包含额外的header信息。2.获取响应内容如果服务器正常响应,那么将受到一个response,response即为我们所请求的网页内容,可能包含htmljson二进制数据(图片、视频)等。解析内容如果是html代码则可以使用网页解析器进行解析;如果是json数据则可以转...

2020-11-08 10:17:52 86

原创 8个最高效的Python爬虫框架

小编收集了一些较为高效的Python爬虫框架。分享给大家。1.ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。项目地址:https://scrapy.org/2.PySpiderpyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬

2020-11-07 10:27:34 605

原创 Python爬虫基础篇——带有请求参数的爬虫

在上一篇文章中,Python爬虫程序爬取了指定网页的信息,爬虫发出的请求是一个固定的URL和部分请求信息,并没有请求参数,但是爬虫工作过程中发出的请求一般都需要加上请求参数,以完成对指定内容的爬取HTTP请求分为POST请求和GET请求,在Python爬虫中,这两种请求因其结构不同,所以添加请求参数的方式也不同,下面将分别介绍使用POST请求和GET请求的Python爬虫GET请求使用GET请求的Python爬虫比较简单,由于GET请求的请求参数包含在URL地址中,所以只需要先确定请求参数...

2020-11-07 10:25:13 3266

原创 Python爬虫——学习线路图2020最新版

通过学习,可以掌握分布式多线程大型爬虫技术,能开发企业级爬虫程序。Python爬虫学习线路简单示意图:知识点细化:多线程原理:同步与异步、串联与并发、线程、开辟一个线程、线程安全与线程锁、多线程队列。 协程:线程的局限、协程的定义与原理、协程的实现。 爬虫的概念及相关工具:爬虫的概念及作用、HTTP协议原理、工具的安装、使用。 Python http libs:urllib的使用、示例requests库的使用、bs4库的使用、xpath语法。 爬虫实战:使用request...

2020-11-06 10:39:58 470

原创 python爬虫——正则表达式

python爬虫学习---正则表达式的使用#正则表达式实现字符串的提取处理等等操作#正则不是python独有的,只是python使用re模块进行了支持 #常见的匹配模式参加开发文档#re.match,从头开始匹配,中间匹配不到import restr='wqgeygewgfywgqfhds...

2020-11-06 10:36:49 122

原创 Python爬虫学习线路图

Python爬虫学习线路图丨Python爬虫需要掌握哪些知识点据不完全统计,世界上80%的爬虫都是基于Python开发的。Python简单易学,对编程初学者十分友好,而且具有丰富而强大的库,开发效率奇高,因此很多编程爱好者都对Python爬虫十分感兴趣。要知道学好爬虫对工作大有裨益,可为今后入门大数据分析、挖掘、机器学习等领域提供重要的数据源,从而奠定一定的技术根基。那么究竟爬虫是什么?首先来看看官方定义:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名

2020-11-06 10:29:13 469

原创 Python到底要学到什么程度?以爬虫为例

大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”。很多自学Python的人担心冒然出去找工作非常容易受打击,从而失去学习Python的信心。接下来跟着千锋武汉Python培训小编一起来看看Python学到什么程度才算是真正学会Python。一、确立目标、了解需求做什么事情都要先确定好目标,才不至于迷失方向。我们就以Python爬虫工程师为职位目标。在一些国内大型的招聘网上找到相关的职位要求:仔细看看,我们可以得出以下几点:1、Python不是唯一可以

2020-11-06 10:21:45 1124

原创 python爬虫——使用Cookie

场景:当我们以未登录身份使用浏览器访问一个看书的相关网址时,只显示了亚马逊的购买链接。隐藏了书籍的下载链接。但是当我们登录以后,下载链接会显示出来,这样在爬虫的时候,可以把下载链接解析出来使用。登录前后网页Headers-Request Headers显示的Cookie不同。下图为浏览器和Web服务器之间的交互,也显示了Cookie的信息。Cookie的引文原意是“点心”,它是在客户端访问Web服务器时,服务器在客户端硬盘上存放的信息,好像是服务器发送给客户的“点心”。服务器可以...

2020-11-05 10:17:44 1091

原创 关于Python爬虫突破封禁的几种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。(更多python资料领取,学习探讨,欢迎加q裙 467604262,主页简介也有老师教学)本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器...

2020-11-05 10:14:13 1147

原创 用Python爬取网站的图片

爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得。当时在考虑做一个与网络有关的东西好,第一个想到的就是爬虫。想想也没想过用Java写过这种东西,所以当时是一般看一本爬虫的书一边敲代码,现在想起来有很多东西是没有想明白的——我当时爬的是刘末鹏的博客,把全部文章用分类爬了下来,在本地可以打开。后面老师评价的时候就说,你这个只能爬这个,其实你应该让他智能些,让他可以爬图片,可以爬特定的内容,..

2020-11-05 10:09:05 729

原创 常见python爬虫框架

一、python爬虫框架 一些爬虫项目的半成品二、常见python爬虫框架 (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。 (2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等 (3)Portia:可视化爬取网页内容 (4)newspaper...

2020-11-04 10:49:07 835 1

原创 Python爬虫之如何抓取纯静态网站及其资源

遇到的需求前段时间需要快速做个静态展示页面,要求是响应式和较美观。由于时间较短,自己动手写的话也有点麻烦,所以就打算上网找现成的。中途找到了几个页面发现不错,然后就开始思考怎么把页面给下载下来。由于之前还没有了解过爬虫,自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是: 打开chrome的控制台,进入Application选项 找到Frames选项,找到html文件,再右键Save As... 手动创建本地的js/css/images目录 依次打开

2020-11-04 10:47:39 820

原创 如何利用Python爬虫轻松挣外快?

期间写了各种奇葩爬虫,挣各种奇葩的钱,写这篇文章总结下几种爬虫挣钱的方式,可以关注下主页简介1.最典型的就是找爬虫外包活儿。这个真是体力活,最早是在国外各个freelancer网站上找适合个人做的小项目,看见了就赶紧去bid一下,把价格标得死死的,由于是挣dollar,当时换算成人民币是1:7.5左右感觉还是换算,别人标几百刀,我就标几十刀,价格战。就是这样做些体力活,不过有个问题是我们跟老美时差是12小时,刚好是颠倒的,他们白天干活的时候,我们刚好是凌晨,所以在回复他们信息时就很延迟,另外又加上有

2020-11-04 10:44:06 233

原创 快速上手python网络爬虫

环境准备:事先安装好,pycharm打开File——>Settings——>Projext——>Project Interpriter点击加号(图中红圈的地方)点击红圈中的按钮选中第一条,点击铅笔,将原来的链接替换为(这里已经替换过了):https://pypi.tuna.tsinghua.edu.cn/simple/点击OK后,输入requests-html然后回车选中requests-html后点击Install Package等待安装成功,关闭通过解析网页源代

2020-11-03 14:34:42 69

原创 Python中求列表list的平均数

Python中如何求列表list的平均数当列表list中只包含数字时,如何求取它的平均数:from numpy import *a = [52,69,35,65,89,15,34]b = mean(a)print(b)运行结果:51.285714285714285(python学习交流裙,资料分享,q裙:467604262)...

2020-11-03 14:30:15 11461

原创 Python中字符串String去除换行符(\n,\r)和空格

Python中字符串String去除出换行符和空格的问题(\n,\r)在Python的编写过程中,获取到的字符串进场存在不明原因的换行和空格,如何整合成一个单句,成为问题。方法:一、去除空格“ · ”代表的为空格strip()"···xyz···".strip() # returns "xyz" "···xyz···".lstrip() # returns "xyz···" "···xyz···".rstrip()

2020-11-03 14:27:59 3547

原创 人工智能Python开发工程师

python学习,资料领取,q裙467604262人工智能Python开发工程师课程体系 课程名称 课程内容 项目实战 第一阶段:Python基础编程 开启编程之路 Scratch入门体验、运算符、动作和绘图、过程、变量、逻辑做决定、调用自身过程、链表。 Scratch是由麻省理工学院(MIT)媒体实验室所开发的一款面向青少年的图形化简易编程软件。使用者只需将色彩丰富的指令方块进行组合,便可创作出多媒体程序、互动游戏、动画故事等作品从而培养学生的编程思维。 Pyt

2020-11-02 08:59:28 249

原创 面试Python后端工程师

惭愧惭愧,我已经叛逃Python 4年了,加入了Java阵营,主要是大数据领域被Java、Scala占领了。工作中真正的核心竞争力还是写出整洁的代码和架构,面向对象的思维(原则与设计),模式的使用。以及复杂性解决方法,抽象、分治、领域设计。但很尴尬的是这些偏软的东西(思维与设计)比较难甄选,所以面试官还是会通过细节的东西去判断你的能力,如语言的特性,底层的原理,源码等。我始终认为这种面试是不健康的,特定细节的东西可以在使用时再去调研,但解决问题的能力,整洁的代码和架构并不是短期可以突击的。希望国

2020-11-02 08:56:46 113

原创 python工程师(web开发和爬虫方向)

一、这家公司主要对亚马逊商品进行数据采集,问的问题比较杂。是否了解线程的同步和异步? 是否了解网络的同步和异步? 链表和顺序表储存时各自有什么优点? 使用redis搭建分布式系统时如何处理网络延迟和网络异常? 数据仓库是什么? 假设有一个爬虫,从网络上获取数据的频率快,本地写入数据的频率慢,使用什么数据结构好? 你是否了解谷歌的无头浏览器? 你是否了解MySQL数据库的几种引擎? redis数据库有哪几种数据结构?二、这家是做网络电视应用(教育/游戏等)的后台(.APK)是否了解d

2020-11-02 08:54:44 357

原创 年薪50万的Python工程师曝光公司面试题

随着人工智能时代的到来,Python工程师的需求量也在与日俱增。现在,很多知名公司都或多或少的在使用Python。而对于Python工程师来说,进入大公司,是一个新的职业起点。目前,国内知乎、网易(游戏)、腾讯(某些网站)、搜狐(邮箱)、金山、豆瓣都在使用Python,国外YouTube、谷歌、Yelp、Slide等也或多或少在使用Python。今天给大家分享一套腾讯公司Python面试题。先看下腾讯公司对Python工程师招聘岗位要求:作为Python开发工程师,进入大公司是开启职业.

2020-10-31 10:02:32 485

原创 Python工程师必备哪些技能?

  Python工程师必备哪些技能?学习路线是什么?随着人工智能时代的到来以及国家一系列政策支持,Python热度大增吸引了更多人加入学习。为了能够快速的掌握Python专业技能,成为企业急需的高端人才,绝大多数人会选择参加专业的学习。  Python具有简单、易学、免费、开源、可移植、可扩展、可嵌入、面向对象等优点。目前Python被广泛的用在Web开发、运维自动化、测试自动化、数据挖掘等多个行业和领域。近年来,Python在招聘市场上的流行程度也在逐步上升,工资水平更是水涨船高。据统计,Pyt.

2020-10-31 09:58:52 954

原创 Python工程师面试知识点

1.到底什么是Python?你可以在回答中与其他技术进行对比下面是一些关键点:Python是一种解释型语言。这就是说,与C语言和C的衍生语言不同,Python代码在运行之前不需要编译。其他解释型语言还包括PHP和Ruby。Python是动态类型语言,指的是你在声明变量时,不需要说明变量的类型。你可以直接编写类似x=111和x="I'm a string"这样的代码,程序不会报错。Python非常适合面向对象的编程(OOP),因为它支持通过组合(composition)与继承(inherita

2020-10-31 09:55:09 102

原创 刷题——python工程师

Python基础语法相关一、Python中的pass语句的作用是什么?pass语句什么也不做,一般作为占位符 或者创建站位程序,pass语句不会不执行任何操作。二、Python是如何进行类型转换的?python提供了将变量或值从一种类型转换为另一种类型的内置函数。比如int函数能将符合数学格式数字型字符串转换为整型。否则,返回错误信息。三、Python是如何进行内存管理的? Python引用了一个内存池(memory pool)机制,即Pymalloc机制(malloc.

2020-10-30 09:54:58 146

原创 怎样才能快速成为Python工程师呢?

随着人工智能的发展与应用,Python编程语言受到世界各界人士的关注,Python工程师也成为一个热门职业,就业薪资高,发展前景广阔。Python是一门简单的编程语言,学习相对更加轻松容易,初学者很容易入门,但想要学好,成为一名优秀的Python工程师就不是那么容易的事情了,需要受到很多因素的影响,以下是成为一名优秀的Python工程师需要满足的条件:一、坚持和自信做任何一件事,贵在坚持,要坚信自己能够学好,是Python学习过程比不可少的心态,当遇到学习上的难点时,才能更有耐心的解决与积累,完

2020-10-30 09:49:58 315 1

原创 Pycharm简单教程

1、下载pycharm pycharm是一种Python IDE,能够帮助我们在编写代码时提高效率。 网上提供的有专业版和教育版之分。专业版是收费的,功能更全面点。 教育版或社区版是阉割版本,但它是免费的。2、pycharm的安装比较简单,官网下载备注:刚下载好的pycharm无法运行程序“ Cannot start process, the working directory…",两种解决方法1.选择Run-Edit configurations。然后点击Envi...

2020-10-24 09:43:06 1624

原创 pycharm的使用

一、Windows环境下安装Python过程1、下载--登陆python 官网https://www.python.org/downloads/ 下载安装包,然后选择下载的版本。2、安装。选择自己的安装目录,点击“next”,直到完成。3、环境变量。在控制面板\用户帐户和家庭安全\用户帐户下选择更改我的环境变量。如下所示:在path中添加下面两个路径,一个是python 的安装路径,一个是Python的Scripts路径。点击确认保存。4、测试Python是否安装好。cmd-下-输入...

2020-10-24 09:39:51 326 1

原创 Python2和Python3的切换

最近在学习Python爬虫,用PyCharm运行示例爬虫程序,有的程序使用Python2的库,有的程序使用Python3的库,需要切换启动程序,如果没有设置,就会报错打开File-setting,为该项目设置Python解释器,defaultSetting为PyCharm设置默认解释器,两者的设置过程一样的,建议都设置一下在setting页面中选择,Project 项目名,Project Interpreter,在如下图右上角位置点击Add添加Python解释器打开添加页面如下,在右边选项栏中选.

2020-10-24 09:36:20 623

原创 python中的 _和__有什么含义?

Python中 _ 和 __ 的含义_ 的含义在python的类中,没有真正的私有化,不管是方法还是属性,为了编程的需要,约定加了下划线 _ 的属性和方法不属于API,不应该在类的外面访问,也不会被from M import * 导入。下面的代码演示加了_ 的方法,以及在类外面对其的可访问性。class A: def _method(self): print('约定为不在类的外面直接调用这个方法,但是也可以调用') def method(self):

2020-10-23 09:49:44 3974

原创 如何安装Tensorflow(Windows和Linux两种版本)

现在越来越多的人工智能和机器学习以及深度学习,强化学习出现了,然后自己也对这个产生了点兴趣,特别的进行了一点点学习,就通过这篇文章来简单介绍一下,关于如何搭建Tensorflow以及如何进行使用。建议的话,还是要学习了一点Python基础知识和Linux知识是最好的!版本:Windows7一:安装Anaconda和Tensorflow步骤:1:从官方网站下载Anacondahttps://www.anaconda.com/download/2:进行软件安装(这个和普通的...

2020-10-23 09:42:42 1811 1

原创 Python爬虫 手把手教你利用爬虫爬取网页

本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫;另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能力。01网络爬虫概述接下来从网络爬虫的概念、用处与价值和结构等三个方面,让大家对网络爬虫有一个基本的了解。1. 网络爬虫及其应用随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战,网络爬虫应运而生。网络爬虫(又被称为网页蜘蛛、...

2020-10-21 18:47:27 9177 1

原创 python爬虫 之 完整代码

复制粘贴,拿来直接跑就行,url之类的都不用改。(python学习群 q: 467604262 ) import urllib.request import urllib.parse import re import os #添加header,其中Referer是必须的,否则会返回403错误,User-Agent是必须的,这样才可以伪装成浏览器进行访问 header=\ { 'User-Agent': 'Mozilla/5.0 (W

2020-10-21 18:43:23 3559 3

原创 Python全栈工程师告诉你为什么要学Python

Python的火热度持续不断。。。。。。作为入门语言还是不错的!你觉得Python真的好吗?或许你在漫天的宣传中看到了这些:开发环境简单,能打字就能写代码;接近英语的简单语法;众多的第三方库;解释执行,不需要编译;跨平台,方便移植;但是作为一个负责任的假程序猿,要跟你说的是:就算再简单的语言,也得学才会会,不要在好不好,真的好不好这些事情上下功夫,要在怎么学如何学上下功夫。想了解更多Python的内容给或者对可发展的方向不明确?可看评论区第一部分:各个领域...

2020-10-15 19:32:08 178

原创 python 面试题

Python基础语法相关(python学习交流资源分享 企鹅群 467604262)一、Python中的pass语句的作用是什么?pass语句什么也不做,一般作为占位符 或者创建站位程序,pass语句不会不执行任何操作。二、Python是如何进行类型转换的?python提供了将变量或值从一种类型转换为另一种类型的内置函数。比如int函数能将符合数学格式数字型字符串转换为整型。否则,返回错误信息。三、Python是如何进行内存管理的? Python引用了一个内存池(mem.

2020-10-15 19:28:46 675

原创 python 网络爬虫 第一个python爬虫实例

最近两天自己写了一个网络爬虫的例子。python版本: 3.5IDE : pycharm 5.0.4要用到的包可以用pycharm下载:File->Default Settings->Default Project->Project Interpreter选择python版本并点右边的加号安装想要的包我选择的网站是中国天气网中的苏州天气,准备抓取最近7天的天气以及最高/最低气温http://www.weather.com.cn/weather/101190401...

2020-10-14 09:56:57 423 1

原创 爬虫实例 基础教程

1、第一种方法# 第一种方式:requests 和 lxml结合使用 import requests from lxml import etree #1、拿到所有的页面链接,并使用yield返回完整的超链接 def get_html(url): # 获取页面HTML html=requests.get(url) # 使用etree格式化HTML seq=etree.HTML(html.text) link_list=seq.xpath('//*[...

2020-10-14 09:49:55 142

原创 python爬虫 开始爬虫前的准备工作

使用Python3,而不再是Python2前言学习python爬虫也有一段时间了,各种爬虫技术多多少少也接触过一些。因为有学弟学妹说想学爬虫,我萌生了写个简单的python爬虫教程的想法。一来,给学弟学妹们提供方便,提供一个入门的渠道;二来,总结这些天自身所学,希望可以借此提高自己,加深认识;三来,如果偶尔有大佬路过,求大佬指出文中错误的地方,感激不尽,毕竟我也只是个菜,还菜的那么执着= =1.什么是网络爬虫百度百科给的介绍如下:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOA...

2020-10-13 10:02:07 399

原创 Python爬虫 爬取网站全部图片实战

一.获得图片地址 和 图片名称1.进入网址之后按F12 打开开发人员工具点击elemnts2.点击下图的小箭头 选择主图中的任意一个图片 那我们这里点击第一个 图片 3.显示控制台 为了验证xpath是否正确 4.通过xpath获得a的href 和 title.(请放大看)我们看到 他提示的是有10个 我们回到网站中看一下 在主页上数一下 他确实是10个 也就是说 我们获得的href 和title是没有任何问题的 那么留着为我们后面使用....

2020-10-13 09:58:20 10303 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除