Wilson_Iceman-CSDN博客

原创部署Maven+Nexus的本地私有服务器

最近出了几天差，一直没有更新博客。今天我们不谈大数据，来看看怎么部署Maven+Nexus的本地私有服务器。之所有要部署本地私有服务器，而不是直接用Maven来今天项目管理，主要是因为Maven每次都要去远程的仓库进行数据的拉取，而部署了Nexus后，Maven就可以先到Nexus去拉取jar包，如果Nexus没有此jar包的话，Nexus会到远程仓库去下载jar包，然后放在Nex...

2018-05-22 10:07:22 1831

原创大数据开发从小白到大神（五）——Maven搭建本地仓库

上一节中我们说到了用eclipse搭建Hadoop的开发环境，但是那是在本地已有hadoop源码的基础上搭建的，如果我们没有hadoop的源码，或者我们今后还要搭建zookeeper，hive等环境，是不是每一个都需要去下载源码呢？答案是否定的，我们只需要在本地安装一个项目管理工具，并且告诉它我们需要什么东西，它就能自动的从远程仓库中下载源码到本地以供我们使用。这个东西就是Maven。通过上面

2018-03-14 17:16:34 607

原创大数据开发从小白到大神（四）——Eclipse开发环境

到目前为止我们的Hadoop完全分布式系统已经搭建完成，现在就是要通过编程来操作Hadoop了，由于Hadoop是基于java语言开发的，自然离不开Eclipse，今天我们就来配置Hadoop的Eclipse开发环境。由于我的电脑已经安装了Eclipse了，所以这里就不再介绍Eclipse的安装过程了。给出一个Eclipse的官方地址，https://www.eclipse.org/dow

2018-03-08 17:09:49 2049

原创大数据开发从小白到大神（三）——Hadoop完全分布式

上一篇文章给大家介绍了Hadoop的伪分布式系统，但是当电脑重启后，数据就是丢失，这是因为Hadoop的伪分布模式是把文件存放在临时文件夹中（/tmp/hadoop/），当进程关闭后，文件也就不存在了，所以我们今天来配置Hadoop的完全分布式。首先我们需要搞清楚几个问题，Hadoop的完全分布式中，一共有5个进程，分别是名称节点（NameNode），数据节点（dataNode），辅助名称节点

2018-03-07 12:52:40 654

原创大数据开发从小白到大神（二）——安装配置Hadoop框架

在上一篇文章中我们完成了5台虚拟机的搭建工作，并且完成了对5台虚拟机都进行了静态ip的设置，这只是大数据平台搭建的基础部分，今天我们就来开始真正的接触大数据——Hadoop。在这个系列中我只想写干货，真正与开发有关的东西，所以关于Hadoop是个什东西，为什么要用Hadoop，网上的资料一大推，大家可以自行百度。在安装Hadoop之前还是有一些预备工作要做，笔者一般喜欢在命令行操作Linu

2018-03-05 17:12:29 567

原创大数据开发从小白到大神（一）——搭建Linux虚拟机平台

最近大数据特别火，所以笔者也想蹭蹭热度，来点大数据的内容。由于大数据涉及的东西太多了，一两篇文章肯定说不完，所以这个系列到底有几篇文章，现在也确定不了，写着看吧。我尽量写一些干货，一些在工作和开发中用的知识点，同时也是对自己学习大数据的一个总结吧。今天是这个系列的第一天，首先要做的就是搭建大数据开发环境，今天主要介绍搭建Linux虚拟机平台。我的主机系统是win7，虚拟机是VMware

2018-03-01 17:19:54 2601

原创 Python的编码和解码

春节刚过，今天正式上班。首先在这里给大家拜个晚年，祝大家在新年里万事如意，新春快乐。今天我们来说一个比较老的话题，关于Python的编码和解码的问题。首先简单的来说，编码就是把人类熟悉的语言转化成计算机可以识别的语言，即0、1状态位。而解码则刚好相反，就是把计算机能够识别的代码（0、1）转化成人类熟悉的语言。计算机最早是在美国发明的，因此美国人只是对自己的语言进行了编码，也就是我们

2018-02-26 15:31:16 460

原创协程介绍

最近看了很多有关协程的介绍，今天在这里总结一下。一提到协程，我们首先想到的还是它和例程，线程等概念的关系。首先我们来说说例程。例程有点类似于函数，但是它包含的内容会更多一些操作系统的API或者服务等等，C语言提供的标准库函数其实也是例程。简单来说，一个子例程就是一次函数调用。而协程，顾名思义就是“协作的例程”，它在1963年首次被提出，并且实现。它和传统的线程不同，线程实现的系统被称为

2018-02-14 13:25:27 377

原创进程间的通行方式

今天我们来聊聊进程间的相互通信进程间的相互通信大体可以分成4中方式，分别是管道，信号，消息队列和共享内存，接下来我们一个一个说。管道进行间的管道通信是最简单的一种方式，它是一种半双工的工作模式，一次只能由一个节点传向另一个节点，两个节点间不可以同时通信。管道只存在于内存中的文件，如果操作这个文件，那么需要两个已经打开的文件，这两个文件就是管道的两端，也叫“句柄”。熟悉linux

2018-02-12 15:47:43 513

原创 Scrapy实现最新的知乎模拟登陆

最近一直在尝试使用Scrapy实现知乎的模拟登陆，终于实现了，今天在这里总结一下。很多朋友可能知道了知乎进行了改版，特别是登录这一部分，不再使用传统的Form表单的形式，而是使用了Multipart/form-data的这种结构来提交表单数据，这就给我们模拟登陆知乎增加了不少麻烦。最近一直在尝试各种办法，后来又结合网络中其他朋友的意见，终于实现了使用Scrapy来模拟登陆知乎。首先和之前的

2018-02-10 00:52:02 1977 2

原创 Python的垃圾回收机制

作者：Wilson_Iceman 出处：http://blog.csdn.net/Wilson_Iceman 欢迎转载，但请保留这段声明。多谢！今天我们来谈谈Python中的垃圾回收机制，每一种语言都有自己的垃圾回收机制，从C语言的手动回收，到java，js和python的自动回收，每一种回收机制都有自己的特点，今天我们来谈谈python的垃圾回收机制，看看它是怎么工作的。关于引用第

2018-02-07 17:12:15 326

原创 Python使用adbapi实现MySQL数据库的异步存储

之前一直在写有关scrapy爬虫的事情，今天我们看看使用scrapy如何把爬到的数据放在MySQL数据库中保存。有关python操作MySQL数据库的内容，网上已经有很多内容可以参考了，但都是在同步的操作MySQL数据库。在数据量不大的情况下，这种方法固然可以，但是一旦数据量增长后，MySQL就会出现崩溃的情况，因为网上爬虫的速度要远远高过往数据库中插入数据的速度。为了避免这种情况发生，我们就

2018-02-06 16:16:53 5518 1

原创简谈Python中的new和init

今天想跟大家谈谈有关Python中的__new__和__init__的问题，其实这个问题对于我来说还是比较难的，想要彻底弄明白这两个的区别的确不是一件容易的事情。下面就是我自己的一些简单的看法。首先我们要明白一点的是，只有继承于object的类，或者更准确的说，祖先类是object类才有__new__方法，其他的类没有这个方法。还有一点需要注意是__new__先于__init__被调用，而__

2018-02-05 14:10:31 2911 1

原创 Python中的浅拷贝与深拷贝

最近两天一直在学习Scrapy的分布式爬虫技术，因此博客耽搁的几天更新，等把那个课程学完，我会发布那个课程的学习心得。今天我想谈谈关于Python中的深拷贝和浅拷贝的内容，其实之前在学习前端的时候，JS当中就有深拷贝和浅拷贝的问题，当时学的时候就有点迷迷糊糊，今天想借着这个机会把这个问题搞清楚。深拷贝和浅拷贝的问题其实还涉及另一个内容，就是赋值，我们就把这三个东西放在一起说。首先说赋值

2018-02-03 23:46:12 311

原创 Scrapy用ImagePipeline爬取网页图片

之前的那个系列文章只是讲到了如何使用Scrapy来爬取文本数据，今天我们来介绍如何用Scrapy来爬取图片数据。Scrapy爬取图片数据需要用到ImagePipeline这个类，此类提供一种方便的方式来下载和存储图片，待会大家看例子的时候就可以看到爬取图片要比爬取文本简单的多，这当然要归功于ImagePipeline这个类。这个类的主要特征如下：将下载图片转换成通用的JPG和R

2018-01-29 23:26:24 3955

原创 Scrapy爬虫从入门到实例精讲（下）

今天是这个系列的最后一篇文章了，所以我们来一个大一点的，复杂一点的程序。今天我们还是爬豆瓣的内容，是豆瓣影评数据。我们找到一个前段时间特别火的一部皮克斯的动画片《寻梦环游记Coco》来进行今天的测试，我们要把豆瓣上这部电影的所有影评数据全部抓取下来。这里说一句题外话，我前一段时间去电影院看了这部电影，真的是良心之作，死亡的话题竟然还能这样讲述，反正我在电影院是哭的稀里哗啦的，强烈建议大家去看看

2018-01-29 00:19:22 1796 2

原创 Scrapy爬虫从入门到实例精讲（中）

上次介绍了Scrapy爬虫网络数据的最简单的使用，今天我们来看看如何用工程或者项目来进行网络爬虫。首先我们需要创建一个项目。 scrapy startproject douban_book在命令行输入scrapy startproject + [项目名]，这样会生成一个scrapy项目。我这个项目的名称是douban_book。大家一看这个名字就知道，我待会要去爬取豆瓣网站图书的内容。

2018-01-27 12:36:28 11569 9

原创 Scrapy爬虫从入门到实例精讲（上）

最近几天一直在学习Scrapy这个框架，打算用几篇文章来总结一下自己这段时间学习的知识。首先我们需要简单介绍一下Scrapy是个什么东西。先来看一张图，是从官网上弄下来的。Scrapy是一个框架，这个框架是用来爬取网站数据的，并且该框架为我们提供了各种接口，包括爬虫接口，管道接口，数据存储接口以及数据库访问接口等等。上图中绿色的箭头表示数据的流向，从Sche

2018-01-25 16:53:20 5098 3

昨天使用webdriver爬取了某电商网站的商品数据信息，webdriver其实是使用DOM格式来抓取网页数据的。但是使用DOM格式有一个问题，学过前端的同学都知道，如果使用DOM格式抓取数据，必须要等到DOM树形成之后才可以，也就是说DOM格式要完全完成之后才可以使用。但是对于某些特殊的情况，并不需要全部的DOM，可能只需要DOM中的一部分就可以了。在这种情况下webdriver就会显得效率有点

2018-01-23 23:20:06 6997

原创 Python使用Selenium webdriver爬虫某电商商品数据

周末两天在家带孩子没有更新博客，今天用Selenium webdriver设计了一个爬虫程序，来获取某电商平台的商品信息。首先简单介绍一下什么是Selenium webdriver。Selenium本身是一个项目的名字，它包含了一组使用工具以及一套API函数，Selenium webdriver只是它的一个套件而已。Selenium webdriver本质上是一个支持浏览器自动化

2018-01-22 23:28:29 1861

原创 Python的可变类型与不可变类型

今天同事问了我一个问题，关于Python中的可变类型与不可变类型。之前我只知道Python中有可变类型与不可变类型，至少我知道数字型是不可变类型的。今天就趁着这个机会把这个问题彻底搞清楚。 Python的数据类型大致可以分成数字型，字符型，列表型，元组型和字典型。其中，数字型，字符型和元组型是不可变类型，其他两种类型列表型和字典型是可变类型。下面就通过几个例子来说明什么是可变类型

2018-01-19 23:47:39 414

原创网络爬虫股票信息

首先解决一下之前那篇博客遇到的关于中文乱码的问题，在sublime3中无法打印中文的问题。今天问了一个同事，帮我解决了这个问题import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')在win7中，python的默认编码不是'utf-8'，改一下python的默认编码成'u

2018-01-17 16:17:35 1026

原创第一次写博客

大家好，今天是本人第一次写博客。之前一直在进行Web前端的开发工作。最近想转入Python的学习，毕竟这个东西比较火嘛，。但是学了一段时间发现Python这个东西能做的事情太多了，从大数据处理到人工只能，机器学习，几乎Python是无所不能的。有人说，Python就好像是一个胶水，它能将其他语言“粘”在一起，现在稍微有点体会了。所以打算把最近几天的学习心得写下来，也算是对自己的一个总结吧。今天

2018-01-16 11:07:48 292

Wilson_Iceman的博客