- 博客(177)
- 资源 (10949)
- 问答 (8)
- 收藏
- 关注
原创 大数据之“用户行为分析”
编者按:本文由卢东明为36氪撰写,是大数据系列文章的第2篇。卢东明是SAP公司全球数据库解决方案亚太区技术总监;拥有长达 20 年数据库、数据仓库开发管理经验。这几年,几家电商的价格战打得不亦乐乎,继去年的“双11大促”和“6·18狂欢节”之后,电商之间以价格为主要诉求的大规模促销层出不穷,几乎要把所有能够用来造势的节日都用上了。而消费者们作为这场游戏中的弱者,不断地被这些真假价格战挑逗着和引
2014-05-30 18:27:41 4240
原创 决策树ID3和C4.5算法Python实现源码
首先推荐李航的《统计机器学习》这本书,这个实现就是按照书上的算法来的。Python 用的是最新的3.3版的,和2.x不兼容,运行的时候需要注意。[python] view plaincopy''''' Created on 2012-12-18 @author: weisu.yxd ''' class Node: '''''Repres
2014-05-28 16:21:01 8650 2
原创 机器学习笔记——皮尔逊相关系数
在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,其实在统计学的时候就已经学过了,只是当时不知道还能用到机器学习中来,这更加让我觉得机器学习离不开统计学了。皮尔逊相关系数——Pearson correlation coefficient,用于度量两个变量之间的相关性,其值介于-1与1之间,值越大则说明相关性越强。两个变量之间的皮尔逊相关系数定义为两个
2014-05-28 16:18:23 3603
原创 线性回归与梯度下降
线性回归(Linear Regression)从这篇文章开始,主要介绍机器学习的一些列基本算法,本文介绍线性回归问题,以及利用最小均方和梯度下降解决线性回归问题。(以下内容是根据斯坦福大学ng教授的机器学习公开课总结的内容)监督学习:即训练数据中既包含了输入数据又包含了对应于这个是输入数据的正确的输出结果。 回归问题:当给出了输入数据后,预测正确的输出结果。线性回归
2014-05-28 16:14:00 1702
原创 MATLAB中使用streamline函数绘制正负点电荷及它们构成的电偶极子的电场线分布图
电场强度等于电势梯度乘以-1,而这些代码在调用gradient函数求偏导后并没有乘以-1。 先把上一篇博客中不严谨的代码拿出来:% 在二维平面上绘制一个正点电荷的电场线图。k = 8.9875e+9; % 比例系数:e = 1.602e-19; % 指定点电荷电量为一个电子带电量绝对值ke = k * e; % k by ed = -2:0.05:2;[x,
2014-05-28 11:01:54 23793 5
原创 二分逼近&二分查找 高效解析800万大数据之区域分布
利用二分逼近法(bisection method) ,解析800多万IP 只需几十秒, 比较高效!原来的顺序查找算法 效率比较低 readonly string ipBinaryFilePath = "qqzengipdb.dat"; readonly byte[] dataBuffer, indexBuffer; readonly uint
2014-05-27 17:25:03 1575
原创 BP神经网络学习及matlab实现
什么是神经网络?神经网络是由很多神经元组成的,首先我们看一下,什么是神经元上面这个图表示的就是一个神经元,我们不管其它书上说的那些什么树突,轴突的。我用个比较粗浅的解释,可能不太全面科学,但对初学者很容易理解:1、我们把输入信号看成你在matlab中需要输入的数据,输进去神经网络后2、这些数据的每一个都会被乘个数,即权值w,然后这些东东与阀值b相加后求和得到u,3、上面只是线性
2014-05-26 12:00:52 6800
原创 python socket 说明
一个简单的python socket编程一、套接字套接字是为特定网络协议(例如TCP/IP,ICMP/IP,UDP/IP等)套件对上的网络应用程序提供者提供当前可移植标准的对象。它们允许程序接受并进行连接,如发送和接受数据。为了建立通信通道,网络通信的每个端点拥有一个套接字对象极为重要。套接字为BSD UNIX系统核心的一部分,而且他们也被许多其他类似UNIX的操作系统
2014-05-23 12:23:26 1321
原创 mapreduce编程实例(4)-求中位数和标准差
这个实例解决问题是:计算一天的每个小时中,网站新增评论长度的中位数和这些长度之间的标准差。代码如下:[java] view plaincopypackage mrdp.ch2; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import jav
2014-05-22 10:10:35 4324
原创 mapreduce编程实例(3)-求平均值
这个实例解决问题是:计算一天的每个小时中,网上新增多少条评论,并计算这些评论的平均长度。代码如下:[java] view plaincopypackage mrdp.ch2; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java
2014-05-22 10:09:54 2140
原创 mapreduce编程实例(2)-求最大值和最小值
在网站的数据统计中,有这样一种情况,即统计某个用户发表的评论数、第一次发表评论的时间和最后一次发表评论的时间。下面代码就是解决comments.xml的这个问题。代码如下:[java] view plaincopypackage mrdp.ch2; import java.io.DataInput; import java.io.DataOutput; imp
2014-05-22 10:09:09 4269
原创 mapreduce编程实例(1)-统计词频
今天开始把MapReduce Design Patterns这本书上的mapreduce例子过一遍,我觉得这本书对学mapreduce编程非常好,把这本书看完了,基本上能遇到的mapreduce问题也都能处理了。下面开始第一篇吧。这个程序是统计一个名为comment.xml中的词频。直接上代码吧。[java] view plaincopy//解析xml文件,并存入map
2014-05-22 10:08:21 2525
原创 Hadoop自学笔记(七)Hadoop环境配置和优化
概览1. Hadoop Trouble Shooting查看logs, 存储位置等2. Hadoop Administration常见Hadoop管理员面对的问题3. Hadoop Optimization如何根据环境配置,优化hadoop学习如何使用Hadoop自带的工具来产生大数据用于性能测试1. Trouble Shootinglogs的存储位
2014-05-22 09:56:21 948
原创 hadoop学习-Netflix电影推荐系统
1、推荐系统概述电子商务网站是推荐系统应用的重要领域之一,当当网的图书推荐,大众点评的美食推荐,QQ好友推荐等等,推荐无处不在。从企业角度,推荐系统的应用可以增加销售额等等,对于用户而言,系统仿佛知道我们的喜好并给出推荐也是非常美妙的事情。推荐算法分类:按数据使用划分:协同过滤算法:UserCF, ItemCF, ModelCF基于内容的推荐: 用户内容属性和物品内容属
2014-05-22 09:54:17 2329
原创 hadoop学习--K-Means(聚类算法)
本例子介绍使用hadoop做聚类分析。通过mapreduce实现KMeans算法。1、KMeans算法介绍:k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法是最
2014-05-22 09:53:15 2523
原创 hadoop学习--基于Hive的Hadoop日志分析
本文将本地的hadoop日志,加载到Hive数据仓库中,再过滤日志中有用的日志信息转存到Mysql数据库里。环境:hive-0.12.0 + Hadoop1.2.11、日志格式2014-04-17 22:53:30,621 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* addToInvalidates: blk_485612467366
2014-05-22 09:51:45 1869
原创 Hadoop学习--HBase与MapReduce的使用
HBase以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列族(Column Family)。表中由行列确定的存储单元称为一个元素(Cell),每个元素保存了同一份数据的多个版本,由时间戳来标识。下面就从安装开始...........1、下载与安装选择一个 Apache 下载镜像,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.g
2014-05-22 09:49:36 905
原创 hadoop学习-倒排索引
倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。表1: 单词 文档列表单词1文档1文档2文档3单词2文档2文档4文档5单词3文档3文档5文档6倒排索引从表1可以看出单
2014-05-22 09:46:39 954
原创 hadoop学习-stream-Top K记录
求海量数据中最大的K个记录来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents 大约有290万条记录。这里的脚本用的是python。apat
2014-05-22 09:45:51 1109
原创 Hadoop 在关机重启后,namenode启动报错
Hadoop 在关机重启后,namenode启动报错:2011-10-21 05:22:20,504 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directory /tmp/hadoop-fzuir/dfs/name does not exist. 2011-10-21 05:22:20,506 ERROR or
2014-05-22 09:44:09 1333
原创 hadoop学习-mahout-Bayes分类算法示例程序
首先在运行贝叶斯算法程序之前,运行环境要求:1、安装maven(书中没提到的)2、安装mahout3、安装hadoop关于2,3的安装方式可以参考书本里或者网上的方法。下面说说安装maven过程,网上很多是直接下载 tar包,然后解压出来。 http://apache.etoak.com//maven/binaries/apache-maven-3.0.2-bin.tar.gz
2014-05-22 09:41:01 1102
原创 hadoop学习--多表关联
本例从多个表中提取出所需要的信息。输入是2个文件,一个表示工厂表,包含工厂名和地址编号;另一个表示地址表,包含地址名和地址编号。根据2个表的信息输出工厂名-地址名表。factory.txt:factorynameaddressedBeijing Red Star1Shenzhan Thunder3Guangzhou Hon
2014-05-22 09:36:17 1000
原创 hadoop学习--单表关联
本例子是对原有数据所包含的信息的挖掘。根据孩子与父母的信息,获取孩子与祖父母,外祖父母的信息。由child-parent表求得grandchild-grandparent表原始数据如下:family.txt:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJ
2014-05-22 09:33:22 1288
原创 hadoop学习--数据排序
对输入文件中的数据进行排序,输入文件中每行为一个数字。输出的每行为2个间隔的数字,第一个代表序号,第二个代表原始数字。输入:27517687输出:1 12 23 54 65 76 77 78 81、设计思路在map过程中就有排序,因此利用这个默认的排序。并将其作为key值输出。reduce得到,将key值作为v
2014-05-22 09:31:51 875
原创 Hadoop学习--Hive安装与配置
最近在学习Hive的安装与使用,第一次使用还是遇到了很多问题。下面介绍下具体的过程。开发环境:ubuntu10.04 jdk:1.7.0_40Hadoop:1.2.11、下载安装包首先从http://hive.apache.org/downloads.html下载并解压到一个目录下,笔者是/root/hive。Hiva需要Hadoop已经启动并运行,所以先得运行hado
2014-05-22 09:25:38 921
原创 hadoop学习-海量日志分析(提取KPI指标)
1、Web日志分析从Web日志中,我们可以获取网站各类页面的PV值(PageView,页面访问量),访问IP;或者是用户停留时间最长的页面等等,更复杂的,可以分析用户行为特征。在Web日志中,每条日志都代表用户的一次访问行为,以下面的一条日志为例子:60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/upload
2014-05-22 09:24:06 1312
原创 决策树--从原理到实现
一.引入决策树基本上是每一本机器学习入门书籍必讲的东西,其决策过程和平时我们的思维很相似,所以非常好理解,同时有一堆信息论的东西在里面,也算是一个入门应用,决策树也有回归和分类,但一般来说我们主要讲的是分类,方便理解嘛。虽然说这是一个很简单的算法,但其实现其实还是有些烦人,因为其feature既有离散的,也有连续的,实现的时候要稍加注意 (不同特征的决策,图片来自【1
2014-05-21 15:00:40 900
原创 chapter2 机器学习之KNN(k-nearest neighbor algorithm)--K近邻算法从原理到实现
一.引入 K近邻算法作为数据挖掘十大经典算法之一,其算法思想可谓是intuitive,就是从训练集里找离预测点最近的K个样本来预测分类 因为算法思想简单,你可以用很多方法实现它,这时效率就是我们需要慎重考虑的事情,最简单的自然是求出测试样本和训练集所有点的距离然后排序选择前K个,这个是O(nlogn)的,而其实从N个数据找前K个数据是一个很常见的算法题,可以用最大堆(最小堆)
2014-05-21 11:51:53 1856
原创 朴素贝叶斯分类器
贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直
2014-05-21 11:27:13 7320 1
原创 贝叶斯学习举例--学习分类文本
“我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。将要展示的朴素贝叶斯算法遵循以下的问题背景:1、考虑实例空间X包含了所有的文本文档(即任意长度的所有可能的单词和标点符号串)。2、给定某未知目标函数f(x)
2014-05-21 11:26:25 858
原创 贝叶斯学习--极大后验假设学习
我们假定学习器考虑的是定义在实例空间X上的有限的假设空间H,任务是学习某个目标概念c:X→{0,1}。如通常那样,假定给予学习器某训练样例序列〈〈x1,d1,〉…〈xm,dm〉〉,其中xi为X中的某实例,di为xi的目标函数值(即di=c(xi))。为简化讨论,假定实例序列〈x1…xm〉是固定不变的,因此训练数据D可被简单地写作目标函数值序列:D=〈d1…dm〉。基于贝叶斯理论我们可以设计
2014-05-21 11:25:34 1374
原创 贝叶斯学习--极大后验概率假设和极大似然假设
在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。要
2014-05-21 11:24:49 1098
原创 机器学习算法源码全解析(四)-人工神经网络关键核心知识点汇总
神经网络里面主要就是单层神经网络学习和多层神经网络学习,涉及到知识点主要就是感知器,线性分割,影藏层,权重校正,误差的平方和等知识点。感知器:是神经网络最简单的形式,单层双输入感知器的结构如下:感知器的作用是将输入分类,超平面有线性分割函数定义:下图是感知器的线性分割:两输入感知器和三输入感知器的情形。感知器如何学习分类任务感知器通过细微的调节权值来减少
2014-05-21 11:23:57 2486
原创 数据挖掘学习笔记之人工神经网络(二)
多层网络和反向传播算法我们知道单个感知器仅能表示线性决策面。然而我们可以将许多的类似感知器的模型按照层次结构连接起来,这样就能表现出非线性决策的边界了,这也叫做多层感知器,重要的是怎么样学习多层感知器,这个问题有两个方面:1、 要学习网络结构;2、 要学习连接权值对于一个给定的网络有一个相当简单的算法来决定权值,这个算法叫做反向传播算法。反向传播算法所学习的多层网络能够
2014-05-21 11:23:03 1374
原创 数据挖掘学习笔记之人工神经网络(一)
由于本人这段时间在学习数据挖掘的知识,学习了人工神经网络刚好就把学习的一些笔记弄出来,也为以后自己回头看的时候方便些。神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效学习方法。人工神经网络的研究在一定程度上受到了生物学的启发,因为生物的学习系统是由相互连接的神经元(ne
2014-05-21 11:22:14 2405
原创 数据挖掘学习笔记--决策树C4.5
在网上和教材上也看了有很多数据挖掘方面的很多知识,自己也学习很多,就准备把自己学习和别人分享的结合去总结下,以备以后自己回头看,看别人总还是比不上自己写点,及时有些不懂或者是没有必要。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出
2014-05-21 11:20:56 1200
原创 数据挖掘十大算法----EM算法(最大期望算法)
概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,
2014-05-21 11:19:32 1009
原创 K近邻算法基础:KD树的操作
Kd-树概念Kd-树 其实是K-dimension tree的缩写,是对数据点在k维空间中划分的一种数据结构。其实,Kd-树是一种平衡二叉树。举一示例:假设有六个二维数据点 = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},数据点位于二维空间中。为了能有效的找到最近邻,Kd-树采用分而治之的思想,即将整个空间划分为几个小部分。六个二维数据点生成的Kd-树的
2014-05-21 11:18:41 1220
原创 数据挖掘十大经典算法
数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据
2014-05-21 11:17:42 1093
原创 数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为: ,
2014-05-21 11:16:34 11509
图机器学习峰会-3-6 Relational Reasoning with Rule Discovery.pdf
2022-07-05
图机器学习峰会-1-1 Graph Neural Networks for Learning Simulations.pdf
2022-07-05
中国“互联网+”大学生创新创业大赛-(样本模板)“互联网+”大学生创新创业大赛项目计划书.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(热点问题)首届中国“互联网+”大学生创新创业大赛热点问题解答.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(往届获奖项目)第三届中国“互联网+”大学生创新创业大赛全国总决赛获奖名单.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(热点问题)第三届中国“互联网+”大学生创新创业大赛的新变化.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(评审规则)第三届中国“互联网+”大学生创新创业大赛全国总决赛评审规则.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(大赛通知)关于对第三届中国“互联网+”大学生创新创业大赛“的实施方案.zip
2022-06-21
中国“互联网+”大学生创新创业大赛-(评审规则)第二届中国“互联网+”大学生创新创业大赛全国总决赛评审规则.zip
2022-06-21
互联网+商业计划书样本-数据管理--SaaS领域70万用户【超级表格】Pre-A轮商业计划书.zip
2022-06-21
图机器学习峰会-Graph4NLP:A Library for Deep Learning on Graphs for NLP
2022-07-05
图机器学习峰会-1-1 Graph Neural Networks for Learning Simulations.zip
2022-07-05
图机器学习峰会-1-2 Fairness and Explainability in Graph Learning.zip
2022-07-05
图机器学习峰会-Translation between Molecules and Natural Language
2022-07-05
图机器学习峰会-Graph4NLP:A Library for Deep Learning on Graphs for NLP
2022-07-05
图机器学习峰会-Beyond Homophily in Graph Neural Networks
2022-07-05
图机器学习峰会-1-2 Fairness and Explainability in Graph Learning.pdf
2022-07-05
高考填报志愿 该选理科? 工科? 还是经济学?
2022-06-07
Simstate应用
2020-11-23
做数据分析时数据量不足怎么办?
2020-11-09
安装pip版本问题经验分享
2020-10-27
APP抓包,我想你应该知道这些东西
2020-10-26
博文中涉及到的相关代码说明
2020-10-16
R和tableau做结合出错
2018-05-31
如何修改表中某种分类的数据量级
2018-02-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人