大数据
zhoujunbuaa
这个作者很懒,什么都没留下…
展开
-
大数据
原创原创 2014-11-09 21:19:38 · 1045 阅读 · 0 评论 -
一个日志挖掘流系统
在某厂工作中这个业务系统的复杂由于数据的庞大造成的。分为实时部分、批量挖掘部分。 由于批量挖掘系统利用hadoop的map reduce挖掘, 假设所有输入的数据位(DataA)一起合并到一个对外服务的分布式的key-value数据库(设为DataBase的A表)中, 数 据量大,挖掘就成长,从用户行为日志产生到最终灌入DataBase中最长有大约48小时的延时。中间结果都保留原创 2015-12-14 00:02:48 · 607 阅读 · 0 评论 -
特征表达——统计、hash、embedding
在机器学习领域的特征,一般是一个id,而且给这个id赋一个值。1、这个特征值的表达一般可以通过统计的tf 或其他类似的数字表示。2、比较难于理解的是hash在特征表达里也能起到比较重要的作用。 通过对特征运用hash函数,获得对应的值。裁剪、分桶获取对应的位表示。可以用作特征,起到降维的作用。3、还有现在比较流行的是用embedding的方式,将特征映射到一定维度的实数空间里,相比h原创 2015-11-30 22:07:57 · 4820 阅读 · 1 评论 -
TensorFlow跟踪
从今天起跟进最新动态。 利用好这片自留地。读了Tensor flow的白皮书,很多宣传说是新的颠覆。但看来最大的颠覆是机器学习的跨平台、低成本话。抽象出公用的框架,支持单机、分布式以及利用GPU的训练与预测,能够在pc、智能手机上部署。最大的特点是将底层硬件抽象框架化了,并充分利用底层硬件的特性(比如GPU)。【话说lightLDA充分利用并行性使得训练非常快】Tensor的中文意思张量,原创 2015-11-29 22:38:50 · 2680 阅读 · 0 评论 -
TensorFlow的代码框架
阅读TensorFlow的代码框架:https://github.com/tensorflow/tensorflow 2015.12.1的情况如上所示: google 目录下主要是Protobuf 的包,也是google的开源工具之一,用于序列化,各种schema格式化,支持多语言(c++、python)之间的转换。 TensorFlow目录: 主目录,后面原创 2015-12-01 23:07:19 · 13176 阅读 · 0 评论 -
插播一条广告:LDA预测代码阅读
代码: https://github.com/madlib/madlib/blob/master/src/modules/lda/lda.cpp里面有lda的预测功能。/** * @brief This function samples a new topic for a word in a document based on原创 2015-12-03 13:43:54 · 1252 阅读 · 0 评论