自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(39)
  • 收藏
  • 关注

原创 SCP拷贝至(非22端口)的远程主机

 scp   -P 11111 tcp_client  [email protected]:/home/jidong.shao/xiu.yi 其中:1.-P 指定的时目标机器的端口,这里是指ip=192.168.8.103的目标机器端口2.-P 一定紧跟scp后面3.如示例,为将tcp_client拷贝至ip为192.168.8.103且端口为11111的...

2014-07-24 17:58:02 158

原创 C++【变量说明】

21 * 一个变量除了数据类型之外,还有属性: 22 * (1)存储类别:C++允许使用auto,static,register,extern 4种存储类别 23 * (2)作用域:程序中可以引用该变量的区域 24 * (3)存储周期:变量在内存的存储期限 25 * 从作用域角度,有局部变量和全局变量 26 * (1)局部变量: 27 * 自动变...

2014-07-08 16:36:28 77

原创 大数据挖掘初识

近年来,大数据挖掘这个词越来越多的出现在人们的生活中。而这里面的大数据,并非只是数据量很大,还表示数据维度多,数据复杂度高,数据来源广泛。当前,数据挖掘针对的数据有结构化、半结构化及无结构化的数据,在目标数据挖掘中,需要将不同类别不同来源的数据融合并交叉验证,最终得到一份涵盖充分且高质量的数据,助于人们的分析及决策。大数据可以从三个方面刻画,(1)量级,volume,大量的数据;(2)速...

2014-06-10 09:30:14 77

原创 python search match

python提供了两种正则表达式的方式,re.search() re.match()首先需要引入头文件 import re然后解释一下二者的区别re.search: 将字符串中所有的字符串都尝试与正则表达式匹配,如果所有的字符串都没有匹配成功,则返回None,否则返回匹配的对象;re.match :只从字符串的起始位置和正则表达式匹配,如果匹配不成功,返回None,否则返回匹配对...

2014-05-06 10:14:56 98

原创 linux find学习

1.命令     find pathname -options [-print -exec -ok ...]2.参数:       pathname: find命令所查找的目录路径。例如用.来表示当前目录,用/来表示系统根目录。-print: find命令将匹配的文件输出到标准输出。-exec: find命令对匹配的文件执行该参数所给出的shell命令。相应命令的形式为'c...

2014-04-18 07:27:57 63

原创 hadoop fs shell命令备份

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使...

2014-04-09 17:05:27 101

原创 python gdb调试

     使用python初期,对于每一步的产出习惯print,随着编写代码的复杂度的增加,print的方式效率越来越低,好在python提供了pdb模块,可以像使用gdb调试c语言一样,来进行断点调试。    使用方法:    1.在py文件中载入pdb模块,import pdb     2.在要设置断点的位置添加 pdb.set_trace()       3.直接实...

2014-03-17 16:15:40 85

原创 机器学习实战-1-基础

1.机器学习任务名称任务监督学习k-近邻算法线性回归是朴素贝叶斯局部加权线性回归是支持向量机Ridge回归是决策树Lasso最小回归系数估计是K-均值最大期望算法否DBSCANParzen窗设计否    2.如何选择合适的机器学习算法(1)考虑使用机器学...

2014-03-09 17:28:09 71

原创 决策树

 决策树(DTs),是一种无参数的监督学习方法,用来分类和回归,目标是建立一个模型,可以通过学习数据特征的简单决策规则来预测目标属性的值。如下图所示,决策树的输入数据近似正弦曲线,规则为if-then-else的规则集。树越深,抉择规则越复杂。决策树的优点:(1)便于理解和解释。树是可视化的。(2)值需要少量的数据准备工作。其它的方法需要数据正式化、需要创建虚拟值并且空值需要...

2014-02-26 22:37:22 64

原创 数据挖掘导论-分类

分类 ,classification,分类任务就是通过学习得到一个目标函数(target function),把每个属性集x映射到一个预先定义的类标号y。目标函数也称为分类模型(classification model)决策树,decistion tree1.概念决策树是一种由节点和有向边组成的层次结构,树中包含三类节点(1)根节点,root node ,没有入边,但有0条或...

2014-02-23 23:35:00 120

原创 数据挖掘导论-数据

1.数据集的一般特征(1)维度, dimensionality ,是数据集中的对象具有的属性数目。(2)稀疏性,sparsity(3)分辨率 resolusion2.数据质量噪声、伪像、偏倚、精度、准确率、离群点、遗漏、不一致的值、重复数据(1)测量误差和数据收集错误测量误差,measurement error,测量过程中导致的问题,测量值与实际值的差称为误差。(...

2014-02-23 23:25:17 76

原创 数据挖掘导论-概述

1、数据挖掘概念数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘是数据库中知识发现(knowledge discovery database KDD)不可缺少的 部分,而KDD是将未加工过的数据转换为有用信息的过程,包括数据预处理、数据挖掘和后处理等过程。数据预处理:目的是将未加工的输入数据转化成适合分析的形式,包括融合多个数据源的数据,清洗数据以消除噪声或者重复的观测值...

2014-02-23 16:07:44 134

原创 机器学习概述

 机器学习应用较多的分类为以下三种:(1)监督学习 supervised learning,通过已有的一部分输入数据和输出数据之间的对应关系,生成一个函数,将输入映射给合适的输出。如分类。(2)非监督学习 unsupervised learning,直接对输入数据进行建模,例如聚类(3)半监督学习 semi-supervised learning,综合利用有类标的数据和没有类标的数...

2014-02-20 16:25:21 72

原创 内存分区及割断含义

  一个进程在内存中会占5个区域:1.程序代码区存放程序代码2.常量区一般定义字符串时,内容存放在常量区如: char *tmp="hello"  //hello存放在常量区3.全局(静态)存储区全局变量,静态(static)变量存放在全局存储区,里面的数据会一直保存到被新的数据覆盖或者进程退出。 程序代码区、常量区和全局(静态)存储区,这三部分的内存分配,...

2014-02-18 14:31:32 54

原创 python学习记录

1.第一个例子#!/usr/bin/pythonprint "hello world!"其中第一行的#号开始标识解释,只是给阅读者一个注释,不会编译运行。Python至少应当有第一行那样的特殊形式的注释。它被称作 组织行 ——源文件的头两个字符是#!,后面跟着一个程序。这行告诉你的Linux/Unix系统当你 执行 你的程序的时候,它应该运行哪个解释器。2.字符串(1)单引...

2014-02-13 15:14:28 56

原创 python json数组转化

如果创建的数组中包含中文汉字,输出时会以默认使用的ascii编码输出,可以使用json的库接口来解决问题,即json.dumps(ddata,ensure_ascii=False,encoding='gb18030'),指定ensure_ascii=False来输出。如:>>> print json.dumps(u'北京')                   ...

2014-02-12 15:20:12 160

原创 shell判断文件夹、文件是否存在

1.判断文件夹是否存在if [  ! -d ${LOCAL_PATH} ];then    mkdir  ${LOCAL_PATH}fi 2.判断文件是否存在if [   -f ${LOCAL_PATH}/data ];then    cat ${LOCAL_PATH}/datafi 3.判断文件是否有可执行权限if [  ! -x ${LOCAL_...

2013-12-26 17:28:24 84

原创 strncpy & memcpy

strncpy和memcpy的用途:从一块内存复制一段连续的数据到另一块内存区别:终结标识不同。strncpy会比较每个字符是否为'\0'以判定是否继续复制;memcpy不管内存数据内容,复制指定的长度(不讨论源串有错误或者目的空间不够等出错的情况)。 对于字符串类型,二者效果一直,但是对于二进制格式或者exe之类的序列化文件,复制最好采用memcpy。今天拷贝一个mcpac...

2013-12-11 16:51:15 71

原创 hadoop原理

1.map-reducemap将输入数据打散,并对其做简单处理,输出。在hadoop中先进行一个叫做shuffle的过程对中间数据排序,然后由reduce把中间数据合并起来,然后将结果输出。map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。mapReduce适用于超大规模数据(100TB数量级)且各数据之间相关性较低...

2013-02-18 12:33:43 48

原创 C语言小知识

 1.%*3d    int a,b;    scanf("%d %*3d %2d",&a,&b);    printf("a=%d b=%2d\n",a,b) 输入:         1 123 12输出结果为:1 12 2.free小陷阱alloc和free是由glibc提供的。glibc是一个具有系统级感觉的用户级程序,负责管理内存堆...

2012-11-05 15:04:05 53

原创 linux中错误编号对应意思

查看错误代码errno是调试程序的一个重要方法。当linuc C api函数发生异常时,一般会将errno变量(需include errno.h)赋一个整数值,不同的值表示不同的含义,可以通过查看该值推测出错的原因。在实际编程中用这一招解决了不少原本看来莫名其妙的问题。比较麻烦的是每次都要去linux源代码里面查找错误代码的含义,现在把它贴出来,以后需要查时就来这里看了。以下来自linux 2...

2012-09-24 14:33:45 110

原创 使用mail命令发邮件

Usage: mail [-iInv] [-s subject] [-c cc-addr] [-b bcc-addr] to-addr ... [- sendmail-options ...] mail [-iInNv] -f [name] mail [-iInNv] [-u user]使用管道最为简单,如echo "This is...

2012-09-17 16:35:38 104

原创 Makefile基础 转转

一般来说,最简单的就是直接在命令行下输入make命令,make命令会找当前目录的makefile来执行,一切都是自动的。但也有时你也许只想让make重编译某些文件,而不是整个工程,而又有的时候你有几套编译规则,你想在不同的时候使用不同的编译规则,等等。本章节就是讲述如何使用make命令的。 一、make的退出码 make命令执行后有三个退出码: 0 —— 表示成功执...

2012-09-12 19:34:17 60

原创 svn常用的命令

近期一直做linux开发,需要经常和svn交互,check代码,列举常用的几个1.svn co "url" target ,check out 代码,其中url为源码存放的地址,target为check out 的代码存放的文件夹2.svn ci -m "explain" check in代码,其中 explain为更新说明3.svn st ,查看当前本地文件和svn最新版本相比哪些...

2012-07-02 16:34:50 76

原创 open和fopen的区别

.缓冲文件系统缓冲文件系统的特点是:在内存开辟一个“缓冲区”,为程序中的每一个文件使用,当执行读文件的操作时,从磁盘文件将数据先读入内存“缓冲区”, 装满后再从内存“缓冲区”依此读入接收的变量。执行写文件的操作时,先将数据写入内存“缓冲区”,待内存“缓冲区”装满后再写入文件。由此可以看出,内存 “缓冲区”的大小,影响着实际操作外存的次数,内存“缓冲区”越大,则操作外存的次数就少,执行速度就快、...

2012-04-16 14:26:53 72

原创 centos修改系统时间

linux系统装上之后系统时间和当前时间不一致,修改方法如下:修改日期:2012年3月2号[size=large]# date -s 3/2/12[/size]Fri Mar 2 00:00:00 CST 2012[size=large]# date -s 18:45:00[/size][size=large]# clock -w[/size]此命令为把系统时间强...

2012-03-02 19:03:48 84

原创 shell常用命令[转]

Linux 常用 shell 命令时间:2010-05-04 20:56来源:未知 作者:admin 点击:241次Shell 基本命令 几个基本的shell命令,用ssh管理主机必备。 1.ls 列出目录下的文件,不同类型的文件颜色不同,例如蓝色是文件夹,白色是文件 [root@restoretmp steph]# ls file.html public_html test [roo...

2012-02-23 15:07:26 62

原创 socket通信原理

socket有3种类型,流式socket、数据报socket和原始soclet。 流式socket定义了一种可靠的面向连接的服务,实现无差错、无重复的顺序数据传输;数据报socket定义了一种无连接的服务,数据通过相互独立的报文进行传输,这种传输是无序的,并且不保证可靠和无差错;原始socket允许对低层协议如IP或ICMP进行直接访问,主要用于定心网络协议实现的测试。 无连接服务...

2012-02-14 21:11:13 76

原创 Context Extraction from HTML Document HTML文档的内容提取

网页内容提取的重要性不仅是内容的数量,还包括其他重要的方面,如:(1)浏览任何网站:模式识别系统使用文档分析技术可以在很小的显示设备上展示网页,通过提取和总结网页内容。(2)高速接入:网页的需要很快的更新(3)带宽的使用:网页的更新应该降低网络拥堵(4)简单配置:任何方式的提取对于SI和用户在已经存在的系统上是容易配置的(5)快速开发:(6)可移植 对网页有效内容...

2012-01-07 21:57:22 54

原创 数据挖掘概述

数据挖掘,采用机器分析和学习的方法来分析数据,挖掘大量数据背后的知识和潜在的信息,涉及人工智能、数据库、统计学、模式识别、知识获取、数据可视化和高性能计算多个学科。 数据挖掘的主要任务:1.关联:Association挖掘和分析;2.分类:Classification;3.聚类分析:Clustering;4.序列模式分析:Sequential Patterns5.偏差...

2012-01-05 20:16:02 70

原创 网页内容抽取

信息抽取的中心是包装器(Wraper),包装器是一种软件过程,使用已经定义好的信息抽取规则,将网络爬虫搜集到的web网页上的信息数据抽取出来,转化为用特定格式描述的信息。包装器将特定的网站,紧密地与抽取的网页结构和标记语言联系起来。包装器的主要特点是能从不相关的文本中识别所要抽取的信息。缺点是包装器一般是按照一定的规则或模式来抽取数据,但是网页结构是复杂的和不规范的,一个包装器一般只针对一个信...

2012-01-03 00:17:07 140

原创 mapreduce

MapReduce是处理/产生海量数据集的编程模型。,通过map()函数处理key-value对,产生中间key-value对,使用reduce()函数合并相同key的中间key/value中的value。大数据量处理中的几种情况可使用MapReduece来解决:(1)URL访问频率统计,map函数处理请求和应答(URL,1)的log,reduce函数把具有相同URL的值合并,输出格式...

2011-12-24 10:45:56 59

原创 google HDFS

根据GFS中主服务器/块服务器的设计,HDFS采用主服务器/从属服务器架构。HDFS集群是由一个NameNode 和一定数目的DataNode组成,NameNode是一个中心服务器,负责管理文件系统的名称空间和客户端对文件的访问。DataNode节点在集群是一个节点一个,负责管理节点上附带的存储。NameNode执行文件系统的名称空间操作,如打开、关闭、重命名文件和目录,同时决定到具体数据...

2011-12-23 22:23:31 76

原创 google云计算框架

一。概述google包括三大核心技术:GFS(Goole文件系统),MapReduce(分布式计算系统),BigTable(分布式存储系统)。1.GFS,底层,负责服务器、机器数据的存储。将大体积的数据库分成固定大小的数据块放到两到三个服务器上。当一个服务器发生故障时,可将数据迅速从另外一个服务器上恢复过来。2.MapRdeuce,Google开发的编程工具,由于1TB的大规模数据集的...

2011-12-22 22:59:08 179

原创 java多线程

1.多线程 多线程允许在程序中并发执行多个指令流,每个指令流都称为一个线程,彼此相互独立。 线程也称为轻量级进程,由操作系统负责调度,区别是“线程没有独立的存储空间,和所属进程中的其它昵称共享存储空间,通信比进程简单”。2.同步 依靠synchronized关键字,包括synchronized方法和synchronized块。Java中每个对象都有一个内置锁,当程...

2011-12-22 21:24:53 79

原创 爬虫的概念

一.基本概念URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。网页抓取:把URL地...

2011-12-22 21:12:28 57

原创 堆和栈

一、由C/C++编译的程序占用的内存分为以下几个部分 1、栈区(stack): 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。 2、堆区(heap): 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。 3、全局区(static): 全局变量和静态变量的存储是放在一块的,...

2011-12-15 15:58:48 50

原创 堆空间,近堆和远堆

near 和 far指针 如果动态创建的数据量比较大,用一个数据段(一般是64K,此时段指针不变,偏移量指针在16bit内变化)放不下的时候,需要重新开辟一个数据段供存放更多的数据,此时称原来的堆部分为近堆,改变段地址后的新的数据段所在的堆部分称为远堆。 PC机的存储器地址是由段地址和偏移地址组合而成,每一段不能超过64k字节地址,因而统一个段内的地址存...

2011-12-15 15:56:47 130

原创 ShapeFiles数据说明

ShapeFile是ESRI提供的一种矢量数据格式,[color=red]没有拓扑信息[/color],由一组文件组成,包括坐标文件(.shp),索引文件(.shx)和属性文件(.dbf)三个文件。1.坐标文件用于记录空间坐标信息,由头文件和实体信息两部分组成。 文件头(100bytes) [color=red]文件头中的文件长度是字长度,即两个字节。[/color] 记...

2011-11-07 10:35:06 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除