自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

求知:数据科学家之路

爱学习爱女神

  • 博客(196)
  • 收藏
  • 关注

原创 hadoop | spark | hadoop的搭建和spark 的搭建

为了学习hadoop和spark,开始了搭建这两的心酸路。下面来介绍下我是如何搭建的,大家可以模仿下,若是有遇到问题,请留言哟。之前搭建成功过,后来冒出问题,一直没解决掉。这次算是搞定了。hadoop 搭建版本hadoop-2.7.1.tar.gz,去官网下载就可以。解压到ubuntu下hadoop用户的目录下。第一步、配置java环境 去http://www.oracle

2017-03-04 17:16:12 1236 1

原创 Ubuntu | 双系统的windows启动项找不到修复

双系统windows10 、ubuntu 16.04 ,重装ubuntu后,开机找不到windows的启动项,在网上找到了解决方案:打开终端 先赋予权限sudo chmod 777 /boot/grub/grub.cfg再来修改sudo grub-mkconfig > /boot/grub/grub.cfg

2017-03-04 12:36:06 3118

原创 双系统 | 在ubuntu下打不开windows下磁盘,并报错误

不知什么原因,在Ubuntu下却不能打开Windows的磁盘,之前还用的完好。 报错如下:Error mounting /dev/sda5 at /media/cuichenhao/软件: Command-line `mount -t “ntfs” -o “uhelper=udisks2,nodev,nosuid,uid=1000,gid=1000,dmask=0077,fmask=0177” “

2017-03-03 21:37:43 1704 1

翻译 翻译 | Keras : Deep Learning library for Tensorflow and Theano

看到Kears时,发现代码好简洁,在github上学习了它的帮助文档,很有用处,便翻译过来,留用。翻译不好勿喷。 哈哈Keras 是一个用python写的,能够在Tensorflow或Theano上运行的神经网络库。它被开发用于集中于稳定快速的实验。从idea到结果的关键是做更好的研究,使得更少可能的拖延。如果你需要深度学习库,使用Keras:可以很容易地和快速原型(通过全模块化,简约,和可扩展

2017-02-28 19:34:16 1273

原创 Tensorflow | 简易更新安装说明

随着tensorflow 的不断发展,它的安装也是越来越简单化。这里以我对0.12版本的安装来推广到后续版本的安装,做简单的说明:在windows 下安装,可以采用博文:http://blog.csdn.net/xxzhangx/article/details/54379255 来安装。若是后续有了更新版本,只需一些几步,代码如下:#切换到Scriptsm目录下cd E:\Anaconda3\S

2017-02-27 14:32:15 1103

原创 Tensorflow | 函数名字的更新

Tensorflow 更新到1.0后,一些函数发生了变化,也有些函数迁移到contrib中,在运行代码时易报错。这次仅仅说几个我遇到的名称变化的函数:tf.sub ——> tf.subtracttf.mul ——> tf.multiply后续遇到再更新列表

2017-02-27 10:45:32 4194

原创 tensorflow | 操作函数 和 数据类型

tensorflow中的操作函数数据类型

2017-02-20 22:26:16 914

原创 spark | spark 机器学习chapter3 数据的获取、处理与准备

阅读spark机器学习这本书来学习在spark上做机器学习注意:数据集是电影评分等数据,下载链接:http://files.grouplens.org/datasets/movielens/ml-100k.zip数据集包括:用户属性文件、电影元素、用户对电影的评级 1、将数据解压到某个目录下,并切换到该目录unzip ml-100k.zipcd ml-100k2、查看上述三种数据用户 电影

2017-02-17 17:20:53 693

原创 spark | 读数据

为何要单独一个博文来记录读取数据呢?我觉得读数据很重要,涉及到不同格式的数据,各式各样的情况,故而记之。注意:以python语言为工具读csv格式的 本数据有3列# -*- coding:utf-8 -*- from pyspark import SparkContextsc = SparkContext("local[2]", "First Spark App")# we take t

2017-02-16 23:36:02 425 1

原创 spark | 做基本计算和批量提交

初学spark,就按照书上的来学习1、首先,在ubunu下登录到拥有spark权限的用户下。#以我的为例,我的用户名是hadoopsu hadoop #这里会提示输入密码#切换到spark目录下#cd /home/hadoop/spark2、启动python环境./bin/pyspark3、以一个案例为例子来介绍,数据见底部的百度云链接# -*- coding:utf-8 -*- fr

2017-02-16 22:39:35 1280

原创 spark | 学习记录: 启动Scala、python

初学者,记录学习spark的最基本东西,不忘记在spark下启动scala:./bin/spark-shell测试例子:sc.parallelize(1 to 1000).count()在spark中启动python:./bin/pyspark测试例子:sc.parallelize(range(1000)).count()

2017-02-16 14:26:21 1389

原创 spark | metastore_db cannot be creat

快找工作了,也得把spark和hadoop学起来,于是安装便碰到问题。<console>:14: error: not found: value spark import spark.implicits._ ^<console>:14: error: not found: value spark import spark.sql其原因是没有

2017-02-16 13:24:47 3962 1

原创 python | 解决defaults::qt-5.6.2-vc14_3

在安装tensorflow时需要安装qt,但是报错了,内容如下:ERROR conda.core.link:_execute_actions(330): An error occurred while installing package 'defaults::qt-5.6.2-vc14_3'.UnicodeDecodeError('utf-8', b'\xd2\xd1\xb8\xb4\xd6\x

2017-02-15 13:13:35 5094 1

原创 python | 对时间点的处理

做分析时遇到精确到小时的时间点,需要对月、天、时间来单独分析。以我遇到的一个问题作为例子来说明。 2011-01-01 06:00:00 2011-01-01 07:00:00 2011-01-01 08:00:00 。 。 。等,需要抽出月、天、小时这样的数据单独分析,如何做呢?幸好,pandas可以提供这样的函数。import pandas as pd#读

2017-02-09 20:14:58 928

原创 python | 简单的数据分析

做数据分析的两大利器:python和R语言,这里介绍一个我用python学习的案例第一步,设置工作目录#encoding:utf8import osos.chdir("G:\\Anaconda3\\Scripts\\lecture01\\Feature_engineering_and_model_tuning\\Feature-engineering_and_Parameter_Tuning_

2017-02-09 18:08:28 957

原创 Xgboost | 在Win10中安装

基于对xgboost的学习,R语言版本很好安装,可是python安装版非普通安装方法,根据网上教程,一步步的做下来,终于成功了,故博文记录下来,以供自己或他人查询。注意 : 我的电脑是64位的,32位的安装方法是否雷同,请小心尝试需要的软件:gitmingw64anaconda(做计算常用的python集合软件)第一步 : 安装git https://git-scm.com/downlo

2017-02-07 12:38:18 4258 5

原创 python | pandas 读csv数据报错: 0x8b 解决方案

用pandas 读取csv数据报错了,报错内容如下:读取的代码:import pandas as pd#载入数据:train = pd.read_csv('Train.csv')主要错误是:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x8b in position 2: invalid start byte全部显示信息pandas\p

2017-02-06 23:11:10 11156 6

原创 Kaggle课程 | lecture 1 机器学习算法、工具与流程概述

在july的网站购买了kaggle课程,自己学习并作笔记记录,非给july打广告,只是为了不忘记或自己学习查询。在这里感谢july提供的该课程。下面开始笔记。主要内容 应用领域 常用算法 算法之间的联系 工具 常用scikit-learn ,文本分析用gensim,数据处理用Numpy、matplotlib、pandas,深度学习有tensorflow、caffe、keras解决问题的流程 图

2017-02-06 22:14:06 1083 1

原创 Tensorflow | 回归分析

用tensorflow来做回归分析,基于梯度下降法这里以一元回归分析为例子来说明如何用tensorflow实现回归分析。1、产生数据 采用随机的方式来产生。先基于均值为0,方差为0.9的正态分布产生随机数X,再通过线性变换产生Y,再添加一个均值为0,方差为0.5的噪声。这样便得到数据X和Y。import numpy as np#产生100条数据num_puntos = 100conjunto

2017-02-02 16:59:00 5983

原创 git | git 重新认证

git重新认证,上传代码到本地或克隆本地当你把电脑重现安装或git的认证文件被删除等,git上次代码到github便会报错,这时该如何操作呢?下面看我的另外一篇博文,就可以解决这个问题。http://blog.csdn.net/xxzhangx/article/details/52951592

2017-02-02 15:58:15 5400

原创 python | glob 识别特定格式的文件

python 的第三方包glob识别特定格式的文件在做kaggle的猫狗识别的比赛时,要对图片来分区是猫还是狗,glob包起了很大的作用。下面来用例子说明:from glob import globimport osos.chdir("E:\\Windows.old\\Users\\zhangxiang\\Desktop\\tensorflow_learning\\tensorflowCatV

2017-02-02 15:32:37 3265

原创 python Bug | ImportError: No module named _curses

在运行python,用tensorflow识别猫狗问题时,报错了。ImportError: No module named _curses怎么解决呢?这里给出的方案是:安装curses包的whl文件,便可以得到解决。一个较好的源:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 去那里下载对应版本的whl文件

2017-01-31 14:55:51 1768 1

原创 Anaconda 更新和第三方包更新

更新Anaconda和它包含的包打开cmd,切换到 ./Anaconda3/Scripts目录下更新Anacondaconda update conda更新包conda update -- all

2017-01-26 15:44:40 35070 6

原创 Tensorflow | 斯坦福cs20si | lecture1

根据学习斯坦福cs20si的课件记录学习笔记一些有趣的tensorflow项目Neural Style Translation 人人是梵高大师,人人做名画Generative Handwriting 手写字识别 WaveNet: Text to Speech 文本转为语音学习目标理解TF的图计算方法探究TF的内建函数构建最合适的深度学习项目推荐的资料 书:TensorFlow

2017-01-26 00:24:23 5893 6

原创 Tensorflow | 读取csv文件

如何将CSV数据读入到tensorflow中,这个问题困扰了我好几天,下面来说一种我现在用到的方法。待有新的读取方法 ,本帖保持更新以一个案例来切入:#加载包from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport tenso

2017-01-22 11:05:44 19935 13

原创 Tensorflow | 基本函数介绍

这次来总结下这几天学习tensorflow的心得,包含了一些基本的函数,例如,加减乘除等,下面来一一介绍,并给出具体的例子。两个小的tips我的版本:anaconda 4.2 tensorflow 0.12.1若是你不知道如何在windows下安装tensorflow,可以依照我的博客:http://blog.csdn.net/xxzhangx/article/details/5437925

2017-01-18 23:04:42 9262 3

原创 Tensorflow | MNIST手写字识别

这次对最近学习tensorflow的总结,以理解MNIST手写字识别案例为例来说明原始的网址:https://www.tensorflow.org/versions/r0.12/tutorials/mnist/beginners/index.html#mnist-for-ml-beginners0、数据解释数据为图片,每个图片是28像素*28像素,带有标签,类似于X和Y,X为28像素*28像素的数

2017-01-15 20:24:49 5341

转载 机器学习:代价函数cost function

本文系转载,咯有修改原博客地址:http://blog.csdn.net/u012162613/article/details/44239919在此,向原作者表达感谢,致敬!1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:C=(y−a)22C = \frac{(y-a)^2}{2}其中yy是我们期望

2017-01-15 16:33:56 6270 1

原创 Tensorflow | win10中安装tensorflow-0.12.1 (0.12.1以后的版本安装均适用)

本文首发在CSDN博客:http://blog.csdn.net/xxzhangx/article/details/54379255前几天,谷歌推出了windows对tensorflow的支持,我参考下面两篇博文来安装了我的tensorflow。为表示对远程作者的尊敬,先列出参考的文章。 - 参考文献 https://m.aliyun.com/yunqi/articles/68435 htt

2017-01-12 17:06:55 16809 12

原创 R:自己选择要读取的文件

这里以read.csv为你来说明函数file.choose() 在R的命令框中输入下面的函数,会弹出对话框,选择到你要的文件,然后点击确认,这样便将csv文件读入到了R中。 read.csv(file.choose())

2017-01-08 22:17:19 9331

原创 R:混淆矩阵

在机器学习中,最后要计算混淆矩阵,常用的函数有:tableconfusionMatrix下面以前馈神经网络为例来说明:> library("RSNNS") 载入需要的程辑包:Rcpp> library("reshape")> #example data and code from nnet function examples> ir<-rbind(iris3[,,1],iris3[,,

2017-01-08 22:10:53 10685

转载 R语言:用微软的深度学习得到人脸的特征数据

本文系转载,原地址:http://blog.csdn.net/wzgl__wh/article/details/52904069微软的深度学习https://www.microsoft.com/cognitive-services/en-US/subscriptions,使用Face功能来检测人脸的特征。下面用R语言来跑下案例:> img.url = 'https://www.whitehouse

2017-01-03 12:35:34 2302 1

转载 R语言:用微软的深度学习理解图片情感

本文系转载,原博客:http://blog.csdn.net/wzgl__wh/article/details/52904069使用微软(https://www.microsoft.com/cognitive-services/en-US/subscriptions)的Emotion 来理解一张图片的人物表情,下面直接上代码:> library("httr")#链接API> library("X

2017-01-03 12:27:40 861

原创 机器学习:方差Variance与偏差Bias

在评估机器学习算法时,会经常涉及到方差与偏差,在网上找到很好说明两者的图:

2016-12-18 13:00:38 669 1

原创 R语言:快速读取txt文件

用R语言来读取600多M的txt文件,使用常用的read.table,太费时间。想起之前用readr包来读取csv、spss的、sas、excel的很快,便尝试了翻。直接上代码:> library(readr)> a1=Sys.time()> BRCA_RNAseqGene<-read_delim("20151101-BRCA-RNAseqGene.txt", "\t", escape_dou

2016-12-16 18:13:09 23752

原创 R语言:PPS抽样

今天有朋友咨询我怎么写PPS抽样的代码,试着找了下,找到一个实现PPS抽样的R包。百度百科: PPS 抽样是指按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中

2016-12-15 22:52:07 10452

原创 altify:用微软的深度学习理解图片

github上有个项目叫altify,使用微软的视觉学习来理解图片,地址:https://github.com/ParhamP/altify下面直接上代码,学习使用。1、altify 打开cmd,输入:pip install altify便可以下载和安装altify包2、登陆微软的深度学习服务,并订阅免费的服务: 网址:https://www.microsoft.com/cognitive-se

2016-12-15 13:46:56 949

原创 R语言:Sys.sleep()与Sys.time()

R语言实现获取当前的时间以及让语言计算停顿下,这次介绍三个函数:Sys.sleep()Sys.time()proc.time()Sys.sleep() 让R语言在做计算时停顿下,减缓运行速度#睡眠2秒Sys.sleep(2)Sys.time() 获取当前的系统时间,达到秒的精度。> Sys.time()[1] "2016-12-14 23:52:10 CST"proc.time()

2016-12-15 00:10:45 18138

原创 通用的机器学习框架

这里介绍了机器学习的套路,详细的请参见这个博客:http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

2016-12-12 12:33:21 598

原创 在windows下使用jupyter notebook

在查询ipynb文件时发现了在windows下使用ipython的方法,这次就来做下介绍。1,首先,安装Anaconda,网址为:https://www.continuum.io/downloads/,下载与你电脑版本对应的,安装好。2,在电脑左下角的开始处搜索:jupyter notebook,并点击它打开,会出现一个黑色的弹窗, 很快在浏览器中自动打开一个界面, 3,使用ipython功能

2016-12-12 11:35:33 17422

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除