自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Wilson_Iceman的博客

与您共勉

  • 博客(23)
  • 收藏
  • 关注

原创 部署Maven+Nexus的本地私有服务器

    最近出了几天差,一直没有更新博客。今天我们不谈大数据,来看看怎么部署Maven+Nexus的本地私有服务器。    之所有要部署本地私有服务器,而不是直接用Maven来今天项目管理,主要是因为Maven每次都要去远程的仓库进行数据的拉取,而部署了Nexus后,Maven就可以先到Nexus去拉取jar包,如果Nexus没有此jar包的话,Nexus会到远程仓库去下载jar包,然后放在Nex...

2018-05-22 10:07:22 1831

原创 大数据开发从小白到大神(五)——Maven搭建本地仓库

上一节中我们说到了用eclipse搭建Hadoop的开发环境,但是那是在本地已有hadoop源码的基础上搭建的,如果我们没有hadoop的源码,或者我们今后还要搭建zookeeper,hive等环境,是不是每一个都需要去下载源码呢?答案是否定的,我们只需要在本地安装一个项目管理工具,并且告诉它我们需要什么东西,它就能自动的从远程仓库中下载源码到本地以供我们使用。这个东西就是Maven。通过上面

2018-03-14 17:16:34 607

原创 大数据开发从小白到大神(四)——Eclipse开发环境

到目前为止我们的Hadoop完全分布式系统已经搭建完成,现在就是要通过编程来操作Hadoop了,由于Hadoop是基于java语言开发的,自然离不开Eclipse,今天我们就来配置Hadoop的Eclipse开发环境。由于我的电脑已经安装了Eclipse了,所以这里就不再介绍Eclipse的安装过程了。给出一个Eclipse的官方地址,https://www.eclipse.org/dow

2018-03-08 17:09:49 2049

原创 大数据开发从小白到大神(三)——Hadoop完全分布式

上一篇文章给大家介绍了Hadoop的伪分布式系统,但是当电脑重启后,数据就是丢失,这是因为Hadoop的伪分布模式是把文件存放在临时文件夹中(/tmp/hadoop/),当进程关闭后,文件也就不存在了,所以我们今天来配置Hadoop的完全分布式。首先我们需要搞清楚几个问题,Hadoop的完全分布式中,一共有5个进程,分别是名称节点(NameNode),数据节点(dataNode),辅助名称节点

2018-03-07 12:52:40 654

原创 大数据开发从小白到大神(二)——安装配置Hadoop框架

在上一篇文章中我们完成了5台虚拟机的搭建工作,并且完成了对5台虚拟机都进行了静态ip的设置,这只是大数据平台搭建的基础部分,今天我们就来开始真正的接触大数据——Hadoop。在这个系列中我只想写干货,真正与开发有关的东西,所以关于Hadoop是个什东西,为什么要用Hadoop,网上的资料一大推,大家可以自行百度。在安装Hadoop之前还是有一些预备工作要做,笔者一般喜欢在命令行操作Linu

2018-03-05 17:12:29 567

原创 大数据开发从小白到大神(一)——搭建Linux虚拟机平台

最近大数据特别火,所以笔者也想蹭蹭热度,来点大数据的内容。由于大数据涉及的东西太多了,一两篇文章肯定说不完,所以这个系列到底有几篇文章,现在也确定不了,写着看吧。我尽量写一些干货,一些在工作和开发中用的知识点,同时也是对自己学习大数据的一个总结吧。今天是这个系列的第一天,首先要做的就是搭建大数据开发环境,今天主要介绍搭建Linux虚拟机平台。我的主机系统是win7,虚拟机是VMware

2018-03-01 17:19:54 2601

原创 Python的编码和解码

春节刚过,今天正式上班。首先在这里给大家拜个晚年,祝大家在新年里万事如意,新春快乐。今天我们来说一个比较老的话题,关于Python的编码和解码的问题。首先简单的来说,编码就是把人类熟悉的语言转化成计算机可以识别的语言,即0、1状态位。而解码则刚好相反,就是把计算机能够识别的代码(0、1)转化成人类熟悉的语言。计算机最早是在美国发明的,因此美国人只是对自己的语言进行了编码,也就是我们

2018-02-26 15:31:16 460

原创 协程介绍

最近看了很多有关协程的介绍,今天在这里总结一下。一提到协程,我们首先想到的还是它和例程,线程等概念的关系。首先我们来说说例程。例程有点类似于函数,但是它包含的内容会更多一些操作系统的API或者服务等等,C语言提供的标准库函数其实也是例程。简单来说,一个子例程就是一次函数调用。而协程,顾名思义就是“协作的例程”,它在1963年首次被提出,并且实现。它和传统的线程不同,线程实现的系统被称为

2018-02-14 13:25:27 377

原创 进程间的通行方式

今天我们来聊聊进程间的相互通信进程间的相互通信大体可以分成4中方式,分别是管道,信号,消息队列和共享内存,接下来我们一个一个说。管道进行间的管道通信是最简单的一种方式,它是一种半双工的工作模式,一次只能由一个节点传向另一个节点,两个节点间不可以同时通信。管道只存在于内存中的文件,如果操作这个文件,那么需要两个已经打开的文件,这两个文件就是管道的两端,也叫“句柄”。熟悉linux

2018-02-12 15:47:43 513

原创 Scrapy实现最新的知乎模拟登陆

最近一直在尝试使用Scrapy实现知乎的模拟登陆,终于实现了,今天在这里总结一下。很多朋友可能知道了知乎进行了改版,特别是登录这一部分,不再使用传统的Form表单的形式,而是使用了Multipart/form-data的这种结构来提交表单数据,这就给我们模拟登陆知乎增加了不少麻烦。最近一直在尝试各种办法,后来又结合网络中其他朋友的意见,终于实现了使用Scrapy来模拟登陆知乎。首先和之前的

2018-02-10 00:52:02 1977 2

原创 Python的垃圾回收机制

作者:Wilson_Iceman 出处:http://blog.csdn.net/Wilson_Iceman 欢迎转载, 但请保留这段声明。多谢!今天我们来谈谈Python中的垃圾回收机制,每一种语言都有自己的垃圾回收机制,从C语言的手动回收,到java,js和python的自动回收,每一种回收机制都有自己的特点,今天我们来谈谈python的垃圾回收机制,看看它是怎么工作的。关于引用第

2018-02-07 17:12:15 326

原创 Python使用adbapi实现MySQL数据库的异步存储

之前一直在写有关scrapy爬虫的事情,今天我们看看使用scrapy如何把爬到的数据放在MySQL数据库中保存。有关python操作MySQL数据库的内容,网上已经有很多内容可以参考了,但都是在同步的操作MySQL数据库。在数据量不大的情况下,这种方法固然可以,但是一旦数据量增长后,MySQL就会出现崩溃的情况,因为网上爬虫的速度要远远高过往数据库中插入数据的速度。为了避免这种情况发生,我们就

2018-02-06 16:16:53 5518 1

原创 简谈Python中的__new__和__init__

今天想跟大家谈谈有关Python中的__new__和__init__的问题,其实这个问题对于我来说还是比较难的,想要彻底弄明白这两个的区别的确不是一件容易的事情。下面就是我自己的一些简单的看法。首先我们要明白一点的是,只有继承于object的类,或者更准确的说,祖先类是object类才有__new__方法,其他的类没有这个方法。还有一点需要注意是__new__先于__init__被调用,而__

2018-02-05 14:10:31 2911 1

原创 Python中的浅拷贝与深拷贝

最近两天一直在学习Scrapy的分布式爬虫技术,因此博客耽搁的几天更新,等把那个课程学完,我会发布那个课程的学习心得。今天我想谈谈关于Python中的深拷贝和浅拷贝的内容,其实之前在学习前端的时候,JS当中就有深拷贝和浅拷贝的问题,当时学的时候就有点迷迷糊糊,今天想借着这个机会把这个问题搞清楚。深拷贝和浅拷贝的问题其实还涉及另一个内容,就是赋值,我们就把这三个东西放在一起说。首先说赋值

2018-02-03 23:46:12 311

原创 Scrapy用ImagePipeline爬取网页图片

之前的那个系列文章只是讲到了如何使用Scrapy来爬取文本数据,今天我们来介绍如何用Scrapy来爬取图片数据。Scrapy爬取图片数据需要用到ImagePipeline这个类,此类提供一种方便的方式来下载和存储图片,待会大家看例子的时候就可以看到爬取图片要比爬取文本简单的多,这当然要归功于ImagePipeline这个类。这个类的主要特征如下:将下载图片转换成通用的JPG和R

2018-01-29 23:26:24 3955

原创 Scrapy爬虫从入门到实例精讲(下)

今天是这个系列的最后一篇文章了,所以我们来一个大一点的,复杂一点的程序。今天我们还是爬豆瓣的内容,是豆瓣影评数据。我们找到一个前段时间特别火的一部皮克斯的动画片《寻梦环游记Coco》来进行今天的测试,我们要把豆瓣上这部电影的所有影评数据全部抓取下来。这里说一句题外话,我前一段时间去电影院看了这部电影,真的是良心之作,死亡的话题竟然还能这样讲述,反正我在电影院是哭的稀里哗啦的,强烈建议大家去看看

2018-01-29 00:19:22 1796 2

原创 Scrapy爬虫从入门到实例精讲(中)

上次介绍了Scrapy爬虫网络数据的最简单的使用,今天我们来看看如何用工程或者项目来进行网络爬虫。首先我们需要创建一个项目。 scrapy startproject douban_book在命令行输入scrapy startproject + [项目名],这样会生成一个scrapy项目。我这个项目的名称是douban_book。大家一看这个名字就知道,我待会要去爬取豆瓣网站图书的内容。

2018-01-27 12:36:28 11569 9

原创 Scrapy爬虫从入门到实例精讲(上)

最近几天一直在学习Scrapy这个框架,打算用几篇文章来总结一下自己这段时间学习的知识。      首先我们需要简单介绍一下Scrapy是个什么东西。先来看一张图,是从官网上弄下来的。Scrapy是一个框架,这个框架是用来爬取网站数据的,并且该框架为我们提供了各种接口,包括爬虫接口,管道接口,数据存储接口以及数据库访问接口等等。上图中绿色的箭头表示数据的流向,从Sche

2018-01-25 16:53:20 5098 3

原创 Python使用HTMLParser抓取网页内容

昨天使用webdriver爬取了某电商网站的商品数据信息,webdriver其实是使用DOM格式来抓取网页数据的。但是使用DOM格式有一个问题,学过前端的同学都知道,如果使用DOM格式抓取数据,必须要等到DOM树形成之后才可以,也就是说DOM格式要完全完成之后才可以使用。但是对于某些特殊的情况,并不需要全部的DOM,可能只需要DOM中的一部分就可以了。在这种情况下webdriver就会显得效率有点

2018-01-23 23:20:06 6997

原创 Python使用Selenium webdriver爬虫某电商商品数据

周末两天在家带孩子没有更新博客,今天用Selenium webdriver设计了一个爬虫程序,来获取某电商平台的商品信息。 首先简单介绍一下什么是Selenium webdriver。Selenium本身是一个项目的名字,它包含了一组使用工具以及一套API函数,Selenium webdriver只是它的一个套件而已。Selenium webdriver本质上是一个支持浏览器自动化

2018-01-22 23:28:29 1861

原创 Python的可变类型与不可变类型

今天同事问了我一个问题,关于Python中的可变类型与不可变类型。之前我只知道Python中有可变类型与不可变类型,至少我知道数字型是不可变类型的。今天就趁着这个机会把这个问题彻底搞清楚。      Python的数据类型大致可以分成数字型,字符型,列表型,元组型和字典型。其中,数字型,字符型和元组型是不可变类型,其他两种类型列表型和字典型是可变类型。下面就通过几个例子来说明什么是可变类型

2018-01-19 23:47:39 414

原创 网络爬虫股票信息

首先解决一下之前那篇博客遇到的关于中文乱码的问题,在sublime3中无法打印中文的问题。今天问了一个同事,帮我解决了这个问题import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')在win7中,python的默认编码不是'utf-8',改一下python的默认编码成'u

2018-01-17 16:17:35 1026

原创 第一次写博客

大家好,今天是本人第一次写博客。之前一直在进行Web前端的开发工作。最近想转入Python的学习,毕竟这个东西比较火嘛,。但是学了一段时间发现Python这个东西能做的事情太多了,从大数据处理到人工只能,机器学习,几乎Python是无所不能的。有人说,Python就好像是一个胶水,它能将其他语言“粘”在一起,现在稍微有点体会了。所以打算把最近几天的学习心得写下来,也算是对自己的一个总结吧。今天

2018-01-16 11:07:48 292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除