yixiu00001-CSDN博客

原创 SCP拷贝至(非22端口)的远程主机

scp -P 11111 tcp_client [email protected]:/home/jidong.shao/xiu.yi 其中：1.-P 指定的时目标机器的端口，这里是指ip=192.168.8.103的目标机器端口2.-P 一定紧跟scp后面3.如示例，为将tcp_client拷贝至ip为192.168.8.103且端口为11111的...

2014-07-24 17:58:02 158

原创 C++【变量说明】

21 * 一个变量除了数据类型之外，还有属性： 22 * （1）存储类别：C++允许使用auto，static，register，extern 4种存储类别 23 * （2）作用域：程序中可以引用该变量的区域 24 * （3）存储周期：变量在内存的存储期限 25 * 从作用域角度，有局部变量和全局变量 26 * （1）局部变量： 27 * 自动变...

2014-07-08 16:36:28 77

原创大数据挖掘初识

近年来，大数据挖掘这个词越来越多的出现在人们的生活中。而这里面的大数据，并非只是数据量很大，还表示数据维度多，数据复杂度高，数据来源广泛。当前，数据挖掘针对的数据有结构化、半结构化及无结构化的数据，在目标数据挖掘中，需要将不同类别不同来源的数据融合并交叉验证，最终得到一份涵盖充分且高质量的数据，助于人们的分析及决策。大数据可以从三个方面刻画，（1）量级，volume，大量的数据；（2）速...

2014-06-10 09:30:14 77

原创 python search match

python提供了两种正则表达式的方式，re.search() re.match()首先需要引入头文件 import re然后解释一下二者的区别re.search：将字符串中所有的字符串都尝试与正则表达式匹配，如果所有的字符串都没有匹配成功，则返回None，否则返回匹配的对象；re.match ：只从字符串的起始位置和正则表达式匹配，如果匹配不成功，返回None，否则返回匹配对...

2014-05-06 10:14:56 98

原创 linux find学习

1.命令 find pathname -options [-print -exec -ok ...]2.参数： pathname: find命令所查找的目录路径。例如用.来表示当前目录，用/来表示系统根目录。-print： find命令将匹配的文件输出到标准输出。-exec： find命令对匹配的文件执行该参数所给出的shell命令。相应命令的形式为'c...

2014-04-18 07:27:57 63

原创 hadoop fs shell命令备份

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使...

2014-04-09 17:05:27 101

原创 python gdb调试

使用python初期，对于每一步的产出习惯print，随着编写代码的复杂度的增加，print的方式效率越来越低，好在python提供了pdb模块，可以像使用gdb调试c语言一样，来进行断点调试。使用方法： 1.在py文件中载入pdb模块，import pdb 2.在要设置断点的位置添加 pdb.set_trace() 3.直接实...

2014-03-17 16:15:40 85

原创机器学习实战-1-基础

1.机器学习任务名称任务监督学习k-近邻算法线性回归是朴素贝叶斯局部加权线性回归是支持向量机Ridge回归是决策树Lasso最小回归系数估计是K-均值最大期望算法否DBSCANParzen窗设计否 2.如何选择合适的机器学习算法（1）考虑使用机器学...

2014-03-09 17:28:09 71

原创决策树

决策树（DTs）,是一种无参数的监督学习方法，用来分类和回归，目标是建立一个模型，可以通过学习数据特征的简单决策规则来预测目标属性的值。如下图所示，决策树的输入数据近似正弦曲线，规则为if-then-else的规则集。树越深，抉择规则越复杂。决策树的优点：（1）便于理解和解释。树是可视化的。（2）值需要少量的数据准备工作。其它的方法需要数据正式化、需要创建虚拟值并且空值需要...

2014-02-26 22:37:22 64

原创数据挖掘导论-分类

分类，classification，分类任务就是通过学习得到一个目标函数（target function），把每个属性集x映射到一个预先定义的类标号y。目标函数也称为分类模型（classification model）决策树，decistion tree1.概念决策树是一种由节点和有向边组成的层次结构，树中包含三类节点（1）根节点，root node ，没有入边，但有0条或...

2014-02-23 23:35:00 120

原创数据挖掘导论-数据

1.数据集的一般特征（1）维度， dimensionality ，是数据集中的对象具有的属性数目。（2）稀疏性，sparsity（3）分辨率 resolusion2.数据质量噪声、伪像、偏倚、精度、准确率、离群点、遗漏、不一致的值、重复数据（1）测量误差和数据收集错误测量误差，measurement error，测量过程中导致的问题，测量值与实际值的差称为误差。（...

2014-02-23 23:25:17 76

原创数据挖掘导论-概述

1、数据挖掘概念数据挖掘是在大型数据存储库中，自动的发现有用信息的过程。数据挖掘是数据库中知识发现（knowledge discovery database KDD）不可缺少的部分，而KDD是将未加工过的数据转换为有用信息的过程，包括数据预处理、数据挖掘和后处理等过程。数据预处理：目的是将未加工的输入数据转化成适合分析的形式，包括融合多个数据源的数据，清洗数据以消除噪声或者重复的观测值...

2014-02-23 16:07:44 134

原创机器学习概述

机器学习应用较多的分类为以下三种：（1）监督学习 supervised learning，通过已有的一部分输入数据和输出数据之间的对应关系，生成一个函数，将输入映射给合适的输出。如分类。（2）非监督学习 unsupervised learning，直接对输入数据进行建模，例如聚类（3）半监督学习 semi-supervised learning，综合利用有类标的数据和没有类标的数...

2014-02-20 16:25:21 72

原创内存分区及割断含义

一个进程在内存中会占5个区域：1.程序代码区存放程序代码2.常量区一般定义字符串时，内容存放在常量区如： char *tmp="hello" //hello存放在常量区3.全局（静态）存储区全局变量，静态（static）变量存放在全局存储区，里面的数据会一直保存到被新的数据覆盖或者进程退出。程序代码区、常量区和全局（静态）存储区，这三部分的内存分配，...

2014-02-18 14:31:32 54

原创 python学习记录

1.第一个例子#!/usr/bin/pythonprint "hello world!"其中第一行的#号开始标识解释，只是给阅读者一个注释，不会编译运行。Python至少应当有第一行那样的特殊形式的注释。它被称作组织行 ——源文件的头两个字符是#!，后面跟着一个程序。这行告诉你的Linux/Unix系统当你执行你的程序的时候，它应该运行哪个解释器。2.字符串（1）单引...

2014-02-13 15:14:28 56

原创 python json数组转化

如果创建的数组中包含中文汉字，输出时会以默认使用的ascii编码输出，可以使用json的库接口来解决问题，即json.dumps(ddata,ensure_ascii=False,encoding='gb18030')，指定ensure_ascii=False来输出。如：>>> print json.dumps(u'北京') ...

2014-02-12 15:20:12 160

原创 shell判断文件夹、文件是否存在

1.判断文件夹是否存在if [ ! -d ${LOCAL_PATH} ];then mkdir ${LOCAL_PATH}fi 2.判断文件是否存在if [ -f ${LOCAL_PATH}/data ];then cat ${LOCAL_PATH}/datafi 3.判断文件是否有可执行权限if [ ! -x ${LOCAL_...

2013-12-26 17:28:24 84

原创 strncpy & memcpy

strncpy和memcpy的用途：从一块内存复制一段连续的数据到另一块内存区别：终结标识不同。strncpy会比较每个字符是否为'\0'以判定是否继续复制；memcpy不管内存数据内容，复制指定的长度（不讨论源串有错误或者目的空间不够等出错的情况）。对于字符串类型，二者效果一直，但是对于二进制格式或者exe之类的序列化文件，复制最好采用memcpy。今天拷贝一个mcpac...

2013-12-11 16:51:15 71

原创 hadoop原理

1.map-reducemap将输入数据打散，并对其做简单处理，输出。在hadoop中先进行一个叫做shuffle的过程对中间数据排序，然后由reduce把中间数据合并起来，然后将结果输出。map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。mapReduce适用于超大规模数据（100TB数量级）且各数据之间相关性较低...

2013-02-18 12:33:43 48

原创 C语言小知识

1.%*3d int a,b; scanf("%d %*3d %2d",&a,&b); printf("a=%d b=%2d\n",a,b) 输入： 1 123 12输出结果为：1 12 2.free小陷阱alloc和free是由glibc提供的。glibc是一个具有系统级感觉的用户级程序，负责管理内存堆...

2012-11-05 15:04:05 53

查看错误代码errno是调试程序的一个重要方法。当linuc C api函数发生异常时,一般会将errno变量(需include errno.h)赋一个整数值,不同的值表示不同的含义,可以通过查看该值推测出错的原因。在实际编程中用这一招解决了不少原本看来莫名其妙的问题。比较麻烦的是每次都要去linux源代码里面查找错误代码的含义，现在把它贴出来，以后需要查时就来这里看了。以下来自linux 2...

2012-09-24 14:33:45 110

原创使用mail命令发邮件

Usage: mail [-iInv] [-s subject] [-c cc-addr] [-b bcc-addr] to-addr ... [- sendmail-options ...] mail [-iInNv] -f [name] mail [-iInNv] [-u user]使用管道最为简单，如echo "This is...

2012-09-17 16:35:38 104

原创 Makefile基础转转

一般来说，最简单的就是直接在命令行下输入make命令，make命令会找当前目录的makefile来执行，一切都是自动的。但也有时你也许只想让make重编译某些文件，而不是整个工程，而又有的时候你有几套编译规则，你想在不同的时候使用不同的编译规则，等等。本章节就是讲述如何使用make命令的。一、make的退出码 make命令执行后有三个退出码： 0 —— 表示成功执...

2012-09-12 19:34:17 60

原创 svn常用的命令

近期一直做linux开发，需要经常和svn交互，check代码，列举常用的几个1.svn co "url" target ，check out 代码，其中url为源码存放的地址，target为check out 的代码存放的文件夹2.svn ci -m "explain" check in代码，其中 explain为更新说明3.svn st ，查看当前本地文件和svn最新版本相比哪些...

2012-07-02 16:34:50 76

原创 open和fopen的区别

.缓冲文件系统缓冲文件系统的特点是：在内存开辟一个“缓冲区”，为程序中的每一个文件使用，当执行读文件的操作时，从磁盘文件将数据先读入内存“缓冲区”，装满后再从内存“缓冲区”依此读入接收的变量。执行写文件的操作时，先将数据写入内存“缓冲区”，待内存“缓冲区”装满后再写入文件。由此可以看出，内存 “缓冲区”的大小，影响着实际操作外存的次数，内存“缓冲区”越大，则操作外存的次数就少，执行速度就快、...

2012-04-16 14:26:53 72

原创 centos修改系统时间

linux系统装上之后系统时间和当前时间不一致，修改方法如下：修改日期：2012年3月2号[size=large]# date -s 3/2/12[/size]Fri Mar 2 00:00:00 CST 2012[size=large]# date -s 18:45:00[/size][size=large]# clock -w[/size]此命令为把系统时间强...

2012-03-02 19:03:48 84

原创 shell常用命令［转］

Linux 常用 shell 命令时间:2010-05-04 20:56来源:未知作者:admin 点击:241次Shell 基本命令几个基本的shell命令，用ssh管理主机必备。 1.ls 列出目录下的文件，不同类型的文件颜色不同，例如蓝色是文件夹，白色是文件 [root@restoretmp steph]# ls file.html public_html test [roo...

2012-02-23 15:07:26 62

原创 socket通信原理

socket有3种类型，流式socket、数据报socket和原始soclet。流式socket定义了一种可靠的面向连接的服务，实现无差错、无重复的顺序数据传输；数据报socket定义了一种无连接的服务，数据通过相互独立的报文进行传输，这种传输是无序的，并且不保证可靠和无差错；原始socket允许对低层协议如IP或ICMP进行直接访问，主要用于定心网络协议实现的测试。无连接服务...

2012-02-14 21:11:13 76

原创 Context Extraction from HTML Document HTML文档的内容提取

网页内容提取的重要性不仅是内容的数量，还包括其他重要的方面，如：（1）浏览任何网站：模式识别系统使用文档分析技术可以在很小的显示设备上展示网页，通过提取和总结网页内容。（2）高速接入：网页的需要很快的更新（3）带宽的使用：网页的更新应该降低网络拥堵（4）简单配置：任何方式的提取对于SI和用户在已经存在的系统上是容易配置的（5）快速开发：（6）可移植对网页有效内容...

2012-01-07 21:57:22 54

原创数据挖掘概述

数据挖掘，采用机器分析和学习的方法来分析数据，挖掘大量数据背后的知识和潜在的信息，涉及人工智能、数据库、统计学、模式识别、知识获取、数据可视化和高性能计算多个学科。数据挖掘的主要任务：1.关联：Association挖掘和分析；2.分类：Classification；3.聚类分析：Clustering；4.序列模式分析：Sequential Patterns5.偏差...

2012-01-05 20:16:02 70

原创网页内容抽取

信息抽取的中心是包装器（Wraper），包装器是一种软件过程，使用已经定义好的信息抽取规则，将网络爬虫搜集到的web网页上的信息数据抽取出来，转化为用特定格式描述的信息。包装器将特定的网站，紧密地与抽取的网页结构和标记语言联系起来。包装器的主要特点是能从不相关的文本中识别所要抽取的信息。缺点是包装器一般是按照一定的规则或模式来抽取数据，但是网页结构是复杂的和不规范的，一个包装器一般只针对一个信...

2012-01-03 00:17:07 140

原创 mapreduce

MapReduce是处理/产生海量数据集的编程模型。，通过map（）函数处理key-value对，产生中间key-value对，使用reduce（）函数合并相同key的中间key/value中的value。大数据量处理中的几种情况可使用MapReduece来解决：（1）URL访问频率统计，map函数处理请求和应答（URL,1）的log，reduce函数把具有相同URL的值合并，输出格式...

2011-12-24 10:45:56 59

原创 google HDFS

根据GFS中主服务器/块服务器的设计，HDFS采用主服务器/从属服务器架构。HDFS集群是由一个NameNode 和一定数目的DataNode组成，NameNode是一个中心服务器，负责管理文件系统的名称空间和客户端对文件的访问。DataNode节点在集群是一个节点一个，负责管理节点上附带的存储。NameNode执行文件系统的名称空间操作，如打开、关闭、重命名文件和目录，同时决定到具体数据...

2011-12-23 22:23:31 76

原创 google云计算框架

一。概述google包括三大核心技术：GFS（Goole文件系统），MapReduce（分布式计算系统），BigTable（分布式存储系统）。1.GFS，底层，负责服务器、机器数据的存储。将大体积的数据库分成固定大小的数据块放到两到三个服务器上。当一个服务器发生故障时，可将数据迅速从另外一个服务器上恢复过来。2.MapRdeuce，Google开发的编程工具，由于1TB的大规模数据集的...

2011-12-22 22:59:08 179

原创 java多线程

1.多线程多线程允许在程序中并发执行多个指令流，每个指令流都称为一个线程，彼此相互独立。线程也称为轻量级进程，由操作系统负责调度，区别是“线程没有独立的存储空间，和所属进程中的其它昵称共享存储空间，通信比进程简单”。2.同步依靠synchronized关键字，包括synchronized方法和synchronized块。Java中每个对象都有一个内置锁，当程...

2011-12-22 21:24:53 79

原创爬虫的概念

一.基本概念URI:Universal Resource Identifier，通用资源定位符，对web上可用的资源，如HTML文档、图像、视频片段等进行定位。包括三部分：访问资源的命名机制；存放资源的主机名；资源自身的名称（路径）。URL：Uniform Resource Locator,统一资源定位符。包括三部分：协议；主机IP（port）；主机资源的具体地址。网页抓取：把URL地...

2011-12-22 21:12:28 57

原创堆和栈

一、由C/C++编译的程序占用的内存分为以下几个部分 1、栈区(stack)：由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈。 2、堆区(heap)：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表。 3、全局区(static)：全局变量和静态变量的存储是放在一块的，...

2011-12-15 15:58:48 50

原创堆空间，近堆和远堆

near 和 far指针如果动态创建的数据量比较大，用一个数据段（一般是64K，此时段指针不变，偏移量指针在16bit内变化）放不下的时候，需要重新开辟一个数据段供存放更多的数据，此时称原来的堆部分为近堆，改变段地址后的新的数据段所在的堆部分称为远堆。 PC机的存储器地址是由段地址和偏移地址组合而成，每一段不能超过64k字节地址，因而统一个段内的地址存...

2011-12-15 15:56:47 130

原创 ShapeFiles数据说明

ShapeFile是ESRI提供的一种矢量数据格式，[color=red]没有拓扑信息[/color]，由一组文件组成，包括坐标文件(.shp)，索引文件（.shx）和属性文件（.dbf）三个文件。1.坐标文件用于记录空间坐标信息，由头文件和实体信息两部分组成。文件头（100bytes） [color=red]文件头中的文件长度是字长度，即两个字节。[/color] 记...

2011-11-07 10:35:06 122

空空如也

空空如也