自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (5)
  • 收藏
  • 关注

原创 机器学习秘籍

为什么深度到现在才流行起来?1、海量的数据2、计算规模足够大学习算法的表现如何?在小数据集情况下,传统算法是否会表现得更好,取决于人们如何进行特征选择工程。例如,假设你只有 20 个训练样本,那么使用逻辑回归还是神经网络可能无关紧要,此时人为的特征选择工程比起选择哪种算法将产生更大的影响。但如果你有 100 万个样本数据,推荐你使用神经网络。开发集与测试集1、训练集用于运行你的学习算...

2019-02-20 16:00:49 317

原创 TensorFlow入门-MNIST

1、首先要将tensorflow、tensorboard、numpy等更新到最新版本2、需要先下载mnist数据集,可以在CSDN上找,官网比较慢。数据放在MNIST_data文件夹里面。from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf# 用来自动下载数据的,mnist是个...

2018-11-08 23:37:53 290 1

原创 Python sklearn 中的SVM示例

Python sklearn 中的SVM示例# -*- coding: utf-8 -*-import pandas as pdfrom numpy.random import shufflefrom sklearn import svmimport joblibfrom sklearn import metricsinputfile = '../Data/moment.csv'...

2018-09-26 22:21:40 5852 6

原创 Spark 2.x 决策树 示例代码-IRIS数据集

数据集下载下载链接代码package Iris;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.Pipeline;import org.apache.spark.ml.PipelineModel;...

2018-04-20 21:05:40 902

原创 深度学习-自学手册

人工智能机器学习 神经网络 前馈神经网络:没有回路的 反馈神经网络:有回路的 DNN 深度神经网络 CNN 卷积神经网络 RNN 循环神经网络 LSTM 是RNN的一种,长短期记忆网络 自然语言处理神经网络神经元-分类器 Hebb 学习方法,随机 –类似SGD一篇神经网络入门 BP反向传播,表示很复杂的函数/空间分布 从最后一层往前调整参数,反复循环该操作y=a(wx+b)

2017-12-23 21:18:38 931

原创 Python word2vector(含安装环境)

一、安装Anaconda Anaconda下载 因为镜像在国外,最好不要晚上下,一大早下比较好,如果是迅雷会员就无所谓了。 我下的是Anaconda3-5.0.1-Windows-x86_64.exe,给一个百度网盘的链接 百度网盘链接 密码:6jm4 安装在D:\PythonSoftware\Anaconda3下面,自己建立文件夹,路径不能有空格,不能有中文。 安装时一定要勾选 “添

2017-11-26 20:16:30 12209 5

原创 项目管理idea+maven+git

安装idea参考我之前的博客: 安装idea 修改idea设置 快捷键修改安装maven下载地址 下载: 解压到E盘Maven文件夹下: 在Maven文件夹下新建一个LoaclWarehouse文件夹,用作仓库。修改E:\Maven\apache-maven-3.5.0\conf下settings.xml文件: 在如下图位置: 添加:<localRepository>E:

2017-08-18 23:41:30 3590

原创 sqoop安装及使用

安装下载地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量: export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQ

2017-04-23 00:27:45 6382

转载 scala与java的区别

1、scala与java都有7中数值类型:int、short、long、byte、float、double、boolean这7种,但是scala中这7种值类型是类,在java中属于基本类型,java中,数据类型分成基本类型和引用类型,scala中不区分。 2、scala中的变量或函数的类型总是写在变量或者函数名的后面 3、scala中的操作符与java中的操作符没有什么不同,但是在scala中,

2017-04-17 16:41:46 1213

原创 SparkSQL+Hive(持续更新)

1、SparkSQL SparkSQL学习手册package SparkSqlimport org.apache.spark.sql.{SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object sparksql_test { def main(args: Array[String]): Unit

2017-04-16 19:20:02 1353

原创 大数据题的解法总结

1.网页黑名单系统,垃圾邮件过滤,爬虫网址判重 空间有限制,允许一定的错误率 使用布隆过滤器来做 2.内存限制下,找到很多数中出现次数最多的数 用hash来做,key是数字,value是次数 进阶:将这些数用hash分成若干份,对每一份进行hash计算个数,最后再对每一份的最多的数进行判断,找到全局最多的数。 3.在一堆数中找到没出现的数 用bit数组来做,数组长度就是题目中给的数的范

2017-04-13 13:41:25 779

原创 flume+kafka+spark streaming(持续更新)

kafkakafka中文教程Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. Apache kafka是消息中间件的一种。 一 、术语介绍 Broker Kafka集群包含一个或多个服务器,这种服务器被称为broke

2017-02-19 23:09:37 5616 2

原创 spark--PageRank

package spark1import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { val nums = 2 val conf = new SparkConf().setAppName("PageRank").setMaster("

2017-02-03 16:23:42 915

转载 Cloudera和openstack

ClouderaHadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训

2017-01-05 16:34:04 958

原创 oracle优化经验

1.行数为亿作单位当oracle表中行数上百万,上千万,上亿的时候,插入和查询的速度就特别慢。所以需要对读写都优化。2.插入优化插入使用批量插入import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.SQLException;publi

2016-12-25 16:23:27 451

原创 spark优化经验

1.为什么要优化程序运行时间太长,某些task分分钟就跑完了,某些却需要1个甚至几个小时。很显然,这个叫做数据倾斜。 那么我们要做的就是让每一个task都运行差不多的数据,这样速度就快很多了。2.关于shuffleshuffle指的是类似reducebykey,groupbykey,或者类似jion这样的操作,指的是将数据从原来的分区转移到另一个分区。 所以呢,shuffle操作是比较花费时间的

2016-12-24 11:57:48 933

原创 小白自学搭建单机版的Hadoop生态圈(持续更新)

安装虚拟机VM免费版 下载这个免费的VM,用虚拟机装Linux,所以你本机的内存至少要8G,不然就很慢啦。 安装过程,复选框都可以去掉,除了选快捷方式的那一栏。注意不要装在C盘哦。 Ubuntu下载 下载16.04 64位的。 安装好VM之后打开,点击新建虚拟机 安装过程中会出现让你下载VM tools,下载吧,不过这次可能会下载不成功,没关系,先取消,后面改了源之后

2016-12-11 17:04:41 2452

原创 hbase的一些使用经验

HBase读写操作Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值

2016-12-08 17:14:00 3893

原创 Python神经网络

Keras里的模块介绍下面的这个网址讲的很好,可以用来系统学习。 Keras中文文档Optimizers Optimizers包含了一些优化的方法,比如最基本的随机梯度下降SGD,另外还有Adagrad、Adadelta、RMSprop、AdamObjectives 这是目标函数模块,定义了用什么形式来误差优化,keras提供了mean_squared_error/mse :平均方差 mea

2016-12-04 13:46:07 2830 1

原创 eclipse安装maven

下载maven在Apache官网搜索maven,点击download进入maven的下载 下载图中的压缩包 解压后,放在除了C盘以外的磁盘下 然后添加环境变量 修改配置文件在maven的conf下面有settings.xml,打开 首先修改仓库的目录,如下图所示,这样仓库就不在C盘了 然后在里面添加下面的镜像,注意阿里的镜像摆第一个,这是下载各种jar包时所找的源头,亲测,阿里的

2016-12-03 17:35:55 509

原创 idea设计字体大小注释颜色以及语言级别

字体大小注释颜色 语言级别

2016-11-28 11:01:49 39425 6

原创 Python决策树

决策树有ID3 C4.5 CART比较经典的算法,不过现在用的比较少,一般用随机森林多。 这里简单学习一下ID3,它是基于信息熵的#-*- coding: utf-8 -*-#使用ID3决策树算法预测销量高低import pandas as pdimport numpy as npfrom sklearn.cross_validation import train_test_splitf

2016-11-26 15:42:02 1730

原创 HBase API操作(新版本)

我下载的是HBase1.2.3 在eclipse里面需要加入的包有: commons-codec-1.9.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-logging-1.2.jar guava-12.0.1.jar hadoop-auth-2.

2016-11-26 10:08:09 6455

原创 Python逻辑回归

介绍回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。 逻辑回归是概率型非线性回归,有2分类和多分类。2分类就是y的取值为0,1 即是 或 否 。

2016-11-20 21:43:00 4232

原创 域名得到泛域名

package domain;import java.util.HashSet;public class domain_fandomain { static HashSet<String> fandomain_suffix;//域名后缀 static HashSet<String> fandomain_suffix_area;//国家或地区后缀 //初始化,将这些后缀加入Set中

2016-11-14 15:32:10 1352

原创 spark入门——读取gz文件并过滤(包括开发环境安装)

安装jdkjdk下载网址 根据需要选择操作系统以及位数,一般就安装在C盘。然后配置环境变量 CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 注意前面有个点 JAVA_HOME C:\Program Files\Java\jdk1.8.0_111 Path %JAVA_HOME%\bin;%JAVA_HOME%\jre\b

2016-10-27 10:47:51 7761 2

原创 Hadoop上的一些组件介绍

1.FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、

2016-10-25 15:43:15 3150

原创 python的PCA

PCA是主成分分析,用来降维,用少量的变量去解释大部分变量,使得原来相关的变成不相关的,独立的变量。sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)n_components保留下来的特征个数n,缺省是所有都保留。赋值为int就是要保留几个。赋值为‘mle’,自动选取,使得满足要求的方差满分比。 copy,True

2016-10-08 14:58:53 1221

原创 python数据变换

1.规范化将数据进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。 1.最小-最大规范化 线性变换,将数值映射到【0,1】之间。 2.零-均值规范化 均值为0,标准差为1,标准正太分布,目前用到最多的方法 3.小数定标规范化 映射到【-1,1】之间#-*- coding: utf-8 -*-#数据规范化import pandas as p

2016-09-30 10:52:02 3407

原创 python数据清洗

1.缺失值的处理对于数据中缺失的值,可以有3种方法处理: 1.删除。比如餐厅的营业额,有几天去装修了,确实没营业,可以删除 2.不处理:有一些模型可以将缺失值作为一种特殊的值,可以直接建模。 3.补上: 均值/中位数/众数:一般情况吧 固定值:比如工资啊,补贴啊 最近临插补:最近的值,相邻的,补上下面是拉格朗日插值法 原理可以参考下面的博客 http://blog.csdn.net/

2016-09-26 17:07:59 4194

原创 python贡献度分析以及相关性分析小例子

贡献度又称帕累托,80%的利润来自20%的最畅销的产品,而其他80%的产品只产生了20%的利润。#-*- coding: utf-8 -*-#菜品盈利数据 帕累托图from __future__ import print_functionimport pandas as pd#初始化参数dish_profit = 'E:/PythonMaterial/chapter3/chapter3/de

2016-09-21 14:48:23 18388 2

原创 python数据质量分析小例子

数据和代码下载地址: http://pan.baidu.com/s/1kVg3KuN#-*- coding: utf-8 -*-import pandas as pdcatering_sale = 'E:/PythonMaterial/chapter3/chapter3/demo/data/catering_sale.xls' #餐饮数据#因为是xls文件,所以用read_excel方法,返

2016-09-20 16:45:15 6327 2

原创 在Windows中安装一些python的第三方库

这些库尽量建一个专门的文件夹集中存放 如果Python是32位的,那么库也装32位的,我的电脑是64位的,但装了32位的Python,反正也可以用 1.安装Numpy https://sourceforge.net/projects/numpy/files/NumPy/](https://sourceforge.net/projects/numpy/files/NumPy/)[ 在这里网址里

2016-09-12 14:38:48 8886 1

原创 让myeclipse的XML文件在编辑时可以产生提示

在使用myeclipse编辑XML文件时,按下alt+/却没事任何提示。比如在编Struts2时。 可以采用下面的方法: 选择windows ,然后选择preferences. 在查找里面输入catalog 选择add location: 选择Struts的lib文件夹里面的struts2-core-2.0.14.jar文件,解压这个文件,然后找到struts-2.0.dtd文件

2016-05-01 22:05:16 447

原创 java连接mysql实例及数据库操作

下载免安装的MySQL http://www.mysql.com/downloads/mysql/ 2.创建和修改my.ini文件 在根目录下,找到my-default.ini文件 复制并更名为my.ini还放到根目录下。 修改my.ini 添加如下: basedir = “F:\mysql\” datadir = “F:\mysql\data\” 3.设置MySQL为Window

2016-04-22 17:06:45 733

原创 简单的解释一下查准率和召回率

查准率和召回率(查全率),这两个指标是搜索引擎中经典的度量方法。A:检索到的,相关的 (搜到的也想要的) B:未检索到的,但是相关的 (没搜到,然而实际上想要的) C:检索到的,但是不相关的 (搜到的但没用的) D:未检索到的,也不相关的 (没搜到也没用的)被检索到的越多越好,这是追求“查全率”,即A/(A+B),越大越好。 被检索到的,越相关的越多越好,不相关的越少越好,这是追求“查准率”

2015-11-29 20:17:16 2325

转载 分布式双活数据中心部署模式

中国IDC圈7月26日报道: 传统主备模式是一个业务只在一个数据中心运行,企业结合灾备等级需求和业务需求,在备份中心部署了大量的备份服务器,但备份中心仅为该业务提供灾备服务,只有当灾难发生、生产数据中心瘫痪时,灾备中心的业务系统才启动这些服务器,造成备份中心服务器资源浪费,广域网链路也无法得到充分的利用。分布式双活数据中心(如图1所示)可以使分布在多个数据中心的同一类业务同时运行,也可以将一个业务分

2015-09-22 23:10:58 8679

原创 Mahout--最基本的推荐系统的JAVA代码

package mp05.com;import java.io.File;import java.io.IOException;import java.util.List;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.RecommenderBuild

2015-09-10 10:52:02 6174

原创 JVM虚拟机堆内存大小

内存大小堆内存分配JVM初始分配的内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的内存由-Xmx指定,默认是物理内存的1/4。默认空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制,即当前堆内存使用超过60%就要增大;空余堆内存大于70% 时,JVM会减少堆直到-Xms的最小限制,即当前内存使用小于30%就要减小。如何查看Runtime run = Runtime.getR

2015-08-22 13:24:01 1048

原创 设计模式入门--自己的理解

1.重载 方法名一样,参数不一样。比如不同的构造方法 2.封装 对象,其实就是一个类,把它自己的成员和方法在自己的类里面实现,自己搞自己的,不依赖别人,同时提供对外的接口 3.继承 子类继承父类,如果一些类有很多共同的代码,可以抽象出来搞一个父类,然后子类来继承,一个类只能继承一个父类。 4.多态 父类的一个方法为虚方法,内部没有具体实现,子类继承过来后,自己去实现,也就是说,方法名

2015-08-20 11:06:49 662

MNIST数据集

MNIST数据集,包含4个文件,训练集的数据以及标签,测试集的数据以及标签

2018-11-08

中国计算机学会推荐国际学术会议和期刊目录.pdf

中国计算机学会推荐的国际学术会议和期刊目录(2012 年)

2013-12-23

Ad-hoc network on Android.pdf

这是关于安卓的ad-hoc的设计文档, 英文版, 英文不难, 很好理解,作者:Rabie Khodr Jradi s072470,Lasse Seligmann Reedtz s072434。

2013-12-23

物联网导论.PDF

刘云浩的物联网导论 PDF版本 是物联网入门的好东西 你值得看的

2013-10-03

JSP和MYSQL课设 客房信息管理系统

这是用JSP和MYSQL编写的客房信息管理系统 是课设

2011-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除