六尘-CSDN博客

原创每天一点机器学习算法小知识——回归模型之线性回归

回归模型线性回归模型逻辑回归模型Adaboost回归模型（既能做分类，也能做回归）GBDT回归模型（既能做分类，又能做回归）XGBoost回归模型（既能做分类，又能做回归）LightGBM回归模型（既能做分类，又能做回归）1 . 线性回归模型一元线性回归算法原理一元线性回归模型案例实现线性回归模型评估一元多次线性回归算法原理一元多次线性回归模型案例实现线性回归模型评估多元线性回归算法原理一元线性回归模型案例实现线性回归模型评估...

2020-07-08 00:26:40 439

原创工程问题记录

字符串中判断存在的几种模式和效率: https://www.cnblogs.com/preacher/p/3931037.html

2018-05-23 16:24:12 603

原创 elasticsearch资料

es先行版 https://github.com/medcl/elasticsearch-rtf 启动不了，但可以学习学习直接下的6.1.1版本，自己配置。head插件： http://www.cnblogs.com/xuxy03/p/6039999.htmlik分词器： https://github.com/Sevenkili/elasticsearch-analysis-ik学习资料

2018-01-01 18:00:09 550

原创 OrientDB初识-学习文档

OrientDB官方文档： http://orientdb.com/docs/last/ OrientDB教程： https://www.w3cschool.cn/orientdb/orientdb_functions.html

2017-08-09 21:14:07 2495

原创 anaconda安装python3.5+tensorflow

之前anaconda一直用的2.7，虽然根本没怎么用过anaconda。现在需要它安装3.5。打开anaconda->environment->root->terminalconda create -n python35 python=3.5 anaconda在anaconda安装包的envs文件下面自动下载安装python3.5。激活python3.5source activate python3

2017-08-08 13:22:30 16216 1

原创 Neo4j图数据库初识

graphdatabase图数据库的笔记之Neo4j图数据库初识目录什么是图数据库为什么使用图数据库Neo4j的下载安装Cypher查询语言Neo4j的各类API 事务Neo4j数据建模大规模数据导入neo4j一.什么是图数据库关键词：存储图结构数据，NoSQLNeo4j的基本要素(构造单元)：结点，关系，属性二.为什么使用图数据库最大优势：查询的高性能举例说明：RDBM

2017-08-04 22:53:41 2795

原创 GitHub协同工作

github协同工作GitHub上有两种协同工作模式。暂时使用fork仓库同步/pull。另外一种见文章《github协同工作》先将对方的代码fork到自己的GitHub上直接在对方GitHub项目里fork就好。从自己的GitHub上fork代码并clone到本地git clone https://github.com/你自己的GitHub账户名/git_coroperation_test例

2017-07-22 23:52:20 1028

原创 java要注意的地方(查缺补漏)

1.java 队列queue的使用http://www.runoob.com/java/data-queue.html2.java中浮点数不能直接使用==比较要使用Math.abs(a,b)<一个极小的值（比如0.000001）……

2017-07-19 23:40:12 635

原创 java中String，StringBuffer和StringBuilder的区别

马上要秋招了，我真是捉急，到了查缺补漏的关键时刻。废话不多说了。以下内容均来自其他人的博客kingzone的专栏以及网上的教程拼凑，仅供自己复习使用。代码是自己写的。StringString是不可变的对象, 因此在每次对String 类型进行改变的时候，都会生成一个新的 String 对象，然后将指针指向新的 String 对象，所以经常改变内容的字符串最好不要用 String ，因为每次生成对

2017-07-12 20:00:18 596

原创语义网应用实例

1.BBC Artists （BBC 艺术家）John Lennon : https://www.bbc.co.uk/music/artists/4d5447d7-c61c-4120-ba1b-d7f471d385b92.BBC World Cup 2010 Website http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/defau

2017-07-11 21:22:49 3194

原创知识图谱项目札记

时间：2017年7月10日1.获取领域知识：找相关领域专家获取项目所需的已经大量存在的结构化的知识数据。(别说找不到，只要有相关学科，一定能找到一些，自己去整理实在太耗费时间和精力，并且不敢保证其科学性)，以作后续处理。2. 对这些结构化的数据进行处理：[1]对这些结构化的数据再次结构化：按我们所需的数据结构进行重新整理。人工？还是直接使用数据库进行数据处理获得我们所需的结构数据？个人认为最好当然是

2017-07-10 16:31:02 1142

原创 SVM资料

SVM入门（一）至（三）Refresh支持向量机系列 FreeMindlssvmlab

2017-07-10 16:18:07 279

原创深度学习初识

——《TensorFlow 实战Google深度学习框架》读书笔记最近，亟需学习关于深度学习的内容。因此，先对书里深度学习的简介部分进行了整理，完全按个人的理解，很多具体的内容现在还不理解，因此只是做一个框架体系的梳理。深度学习初识一. 深度学习是什么？深度学习是机器学习的一个分支，它除了可以学习特征和任务之间的关联以外，还能自动地从简单特征中提取更加复杂的特征。二. 深度学习和机器学习的流程对

2017-06-28 20:35:52 1140

原创使用MatLab读取grib(grb)和grib2文件的方法

在开始读取之前，有必要先了解一下grib文件是什么。以下内容摘自百度百科：GRIB 码是与计算机无关的压缩的二进制编码,主要用来表示数值天气预报的产品资料。现行的GRIB 码版本有GRIB1 和GRIB2 两种格式。GRIB2较之GRIB1具有加大优点而被广泛使用。如：表示多维数据、模块性结构、支持多种压缩方式、IEEE标准浮点表示法等。目前有两个版本，第一版（GRIB1）和第二版（GRIB

2017-03-30 22:16:37 31888 22

原创排序算法之冒泡排序及其改进

冒泡排序（Bubble Sort）简单来说冒泡排序就是比较长度为N的数组中相邻两个元素，如果前一个大于后一个就进行交换。每一趟排序中最大的数都沉到底（N - -的位置）。冒泡排序的过程：第一趟：。。。。。。冒泡排序的代码：template<typename T> void BubbleSort(T arr[], int n){ for(int i = 0; i <

2017-03-16 22:47:47 670

原创排序算法之插入排序及其改进

另一个O(n^2)级别的算法：插入排序Insertion Sort插入排序的过程：插入排序的代码： c++：template<typename T> void InsertionSort(T arr[], int n){ /* for(int i = 1; i < n; i++){ for(int j = i; j > 0; j-

2017-03-16 18:59:06 1130

原创排序算法之选择排序

排序算法中最优的时间复杂度级别为O(nlgn) 基础：O(n^2)，易于实现，因此在一些简单情境下可能是首选。在议一些特殊情况下，简单的排序算法更有效。简单的排序算法思想衍生出复杂的排序算法。可以作为子过程，用以改进更复杂的排序算法。选择排序（Selection Sort）选择排序的过程：选择排序的算法实现 c++代码：#include #include

2017-03-14 23:05:51 510

原创 Neo4j原生API创建数据库时报错：Unsupported major.minor version 52.0

错误代码：Exception in thread "main" java.lang.UnsupportedClassVersionError: org/neo4j/graphdb/factory/GraphDatabaseFactory : Unsupported major.minor version 52.0 at java.lang.ClassLoader.defineClass1(N

2017-03-09 13:34:12 2205

原创 java 读取properties配置文件

1.首先对照properties文件新建一个property的实体类，在实体类的构造方法里使用java提供的Properties类的load()方法接收properties文件的输入流，然后把文件中配置的属性和属性值分割后加载到我们自己建立的Property类里。（1）要有一个config.properties文件，格式如下：#引号中内容的最大长度maxQuoLength = 6#引号中内容

2017-03-07 22:53:01 615

原创 java String 的split方法对“.”分割无效的原因及解决

正则表达式里的元字符需要使用斜杠来进行转义，否则分隔失效。虽然老早就知道这个问题，但是长时间不用就忘了，然后写出代码便有问题，于是决定写一篇作为提醒。下面是转自c语言中文网的正则表达式元字符及其使用方法一览表: 字符描述

2017-03-07 11:33:24 12306 2

转载 MAVEN项目标准目录结构

1.标准目录结构：src -main –bin 脚本库 –java java源代码文件 –resources 资源库，会自动复制到classes目录里 –filters 资源过滤文件 –assembly 组件的描述配置（如何打包） –config 配置文件 –webapp web应用的目录。WEB-INF、cs

2017-03-06 20:33:04 384

转载 MAVEN项目标准目录结构

1.标准目录结构：src -main –bin 脚本库 –java java源代码文件 –resources 资源库，会自动复制到classes目录里 –filters 资源过滤文件 –assembly 组件的描述配置（如何打包） –config 配置文件 –webapp web应用的目录。WEB-INF、cs

2017-03-06 17:06:27 270

转载 MAVEN项目标准目录结构

1.标准目录结构：src -main –bin 脚本库 –java java源代码文件 –resources 资源库，会自动复制到classes目录里 –filters 资源过滤文件 –assembly 组件的描述配置（如何打包） –config 配置文件 –webapp web应用的目录。WEB-INF、cs

2017-03-06 17:04:11 322

原创 Neo4jOgm2.1的使用

一. 准备工作本人系统：Mac OS 安装maven3.0：安装教程如果eclipse中没有安装maven插件的话需要自己安装二. neo4j ogm 2.1使用 1. 新建maven project 2.配置pom.xml,配置完成后会自动将所需要的各个jar包倒入到maven dependencies下。<properties> <project.build.sourceE

2017-03-06 15:25:03 5345

原创 java在eclipse项目中读取文件时相对路径的问题

path = outputdocnum/output_NLP.txtFile f = new File(path);InputStreamReader isr = new InputStreamReader(new FileInputStream(f), encode);File f = new File(path);bufferedIn = new BufferedReader(new Fil

2017-02-10 17:03:17 15326 1

原创 Word2Vector相关资料

因为暂时没有时间细看，只能先把找到的博客先存一下： http://xiaoquanzi.net/?p=156 http://liweithu.com/word2vec https://code.google.com/archive/p/word2vec/ http://ir.dlut.edu.cn/news/detail/291 http://baike.baidu.com/link?ur

2017-01-08 16:02:28 592

原创 scala编写的Spark程序远程提交到服务器集群上运行

一.需要的软件：eclipse相应版本的scalaIDE与集群一样的spark安装包，主要是要用到spark中的jar包与集群一样的hadoop安装包与hadoop版本对应的winutil.exe，hadoop.dll（只要版本差距不大不一样也没关系）二.步骤（一）在eclipse中安装对应版本的ScalaIDE，具体安装见网上。（二）复制winutil.exe，hadoop.dll

2017-01-05 22:44:14 10519

原创 IDM：无法将下载行为传输到IDM

下载神器ＩＤＭ，可以下载网页上的视频，非常好用，但是下载之后却无法下载。这需要在下载之前进行配置：运行ＩＤＭ，下载－选项－常规下进行设置：在浏览器中网页上的视频周围会出现一个浮动的按钮，注意：可能出现在四面八方，细心找一下。点击从该页面下载视频，出现“无法将下载行为传输到ＩＤＭ”的错误，这个错误只要运行一下下载的ＩＤＭ目录下的＂绿化．ｂａｔ＂，如图，点击后输入绿化的序号。然后再到网页上下载视频错

2017-01-04 23:38:05 106436 3

原创完全分布式安装hbase,使用hbase自带的zookeeper

1.我使用的是稳定版本的hbase：hbase-1.2.4-bin.tar.gz 下载地址：http://www-eu.apache.org/dist/ 里面有个stable版本的2.配置环境变量，集群上的每个节点都要配置 vim ~/.bashrcexport HBASE_HOME=/usr/local/hbase/hbase-1.2.4export PATH=$PATH:$HBASE_H

2016-12-28 11:32:53 25646 1

原创 Eclipse搭建Scala+Spark开发环境

搭建教程：http://www.linuxidc.com/Linux/2015-08/120946.htm eclipse中运行第一个scala编写的spark程序：http://blog.csdn.net/xummgg/article/details/50651867 eclipse中Scala IDE插件的下载地址：http://scala-ide.org/download/prev-sta

2016-12-22 16:11:47 4167

原创 HDFS写操作遗留问题

一. 大量小文件如何存储在HDFS上： HDFS上块的大小默认为64M，有的为128M。这里以64M为例每写入一个文件，首先由客户端创建文件请求，创建完成后，第二步就是询问NameNode要写入的这个文件所分到的这些数据块（block）在哪些DataNode上。NameNode会在命名空间中新建一个文件，并检查这个文件是否已经存在，并且检查是否有权限创建。检查通过后，第三步开始写入数据。当文件

2016-12-18 18:15:43 797

原创 centOS安装Scala和Spark

一.安装ScalaScala程序运行在java虚拟机（JVM）上，所以安装Scala之前需要先在linux系统中安装Java。由于之前已经安装了，没安装的可以到我的文章http://blog.csdn.net/xqclll/article/details/53466713去查看。到Scala的官网上去下载相应操作系统的scala版本，解压到安装路径下，然后修改文件权限，使hadoop用户拥有对sca

2016-12-12 22:02:29 2787

原创 Hadoop2.0集群安装配置

本集群使用centOS 7作为系统集群，基于原生Hadoop2，使用版本为Hadoop2.6.0。一. 搭建前提：在搭建集群之前，要保证每台虚拟机都配置好了Hadoop用户安装SSHServer（centOS 7系统安装好后就默认安装了）安装JAVA环境安装Hadoop二. 网络配置首先保证所有主机位于同一个局域网内，然后将每台虚拟机的网络都设为桥接模式，并且手工配置IP地址，保证它

2016-12-11 12:53:47 999

原创 centOS 登录远程服务器

一. 获得对方的授权:服务器IP地址：xxx.xxx.xxx.xxx端口号：xx用户名：mjc密码：**********二. centOS7安装完后默认自动开启ssh服务但我们可以使用如下步骤检查ssh是否开启 1.查看22端口是否开放netstat -tnl2.查看ssh服务是否启动systemctl status sshd.service3.ssh远程登录： ssh [-l

2016-12-09 11:51:03 819

原创 CentOS7上安装Hadoop2.0——单机模式/伪分布式模式暨任务二

注意：本文步骤参考给力星的http://www.powerxing.com/install-hadoop-in-centos/的内容，实验结果均是本人真实实验的图片，仅用于记录和学习之用。一．创建hadoop用户1. 登录root用户，创建Hadoop用户$ su root2. 创建可以登陆的 hadoop 用户，并使用 /bin/bash 作为shell。# useradd -m hadoop

2016-12-06 16:41:36 3098

原创 CentOS安装配置JDK1.7暨任务一

1.解压jdk,新建Hadoop文件,将JDK解压后放入此文件夹中 2.进入root用户su root3.卸载自带的openJDKrpm -qa | grep javarpm -e --nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.91

2016-12-05 16:37:31 966

原创超大XML文件怎么打开

xml文件太大（我的文件有1.5G）会导致普通的编辑器无法打开，原本在Windows系统上安装了sublime text，以为可以打开的，毕竟曾经确实用它打开过，而且mac上也是可以打开的。但这次安装的这个不知道什么原因老是出现“已停止工作”，令人无奈，所以只能换一个软件：UltraEdit 这个软件瞬间就打开了，也不用装什么插件解决乱码，真是好用！

2016-11-15 10:50:48 10794

原创 JVM崩溃原因之一：自己的代码有问题

把之前在Linux下的Java项目移到Windows上，结果出现了如下错误代码，试了网上的各种方法还是没有解决，最后发现自己的代码有一个小问题，就是txt文档从Linux上移到Windows下可能会产生空行，而代码里忽略这种情况，所以当运行一段时间遇到有空行的txt文档后出现了如下错误。所以还是要学会看日志，到出问题的方法那里，仔细检查是否是自己的代码有问题。不要被问题吓到，说不定就是一个小问题，关

2016-11-14 21:09:45 9625

原创 Sublime Text2/Text3如何打开GBK文档时不出现乱码

步骤： 1.安装Package Control插件下载地址：https://packagecontrol.io/installationsublime里喧杂View > Show Console，打开console如下图：在console里复制如下代码，并且按回车键，自动帮你生成你要安装Package Control插件的文件夹。 Sublime Text2请复制如下代码：import

2016-11-11 21:31:13 2224

原创 Andrew Ng机器学习课程笔记（一）

一.机器学习的定义：非正式定义：由Arthur Samuel提出 Machine Learning：Field of study that gives computers the ability to learn without being explicitly programmed.（在不直接针对问题进行编程的情况下赋予计算机学习能力的一个研究领域。）Tom Mitchell提出：对于一

2016-10-09 20:45:04 671

空空如也

空空如也