星陈-CSDN博客

转载简单配置和启动hive/azkaban/hadoop/zookeeper/flume

一、hive启动方式下载地址 https://download.csdn.net/download/ieiqny1/10843154 方式（1） hive/bin/beeline 回车，进入beeline的命令界面输入命令连接hiveserver2 &...

2020-03-06 16:48:49 366

转载拉链表

原文地址：https://blog.csdn.net/xiepeifeng/article/details/42431027在数据仓库的数据模型设计过程中，经常会遇到这样的需求：数据量比较大;表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等;需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去...

2020-03-06 11:25:13 136

原创读论文—统计语言模型综述

1.n-Gram 统计语言模型n- gram 模型于1980年提出来，是一种应用很广的统计语言模型。它认为每个预测变量只与长度为n-1的上下文有关模型问题：然而，该方法存在一个问题，即可能存在某个 n-gr am，它在学习语料集中没有出现，而可能出现在测试语料集中，类似的问题称作数据的稀疏问题。我们需要对这些没有出现在学习语料中的n-gram估计一...

2019-12-03 00:00:18 415

原创 MapReduce避坑总结——计算学生的总成绩和平均成绩

思路比较简单：map中数据类型为：输入LongWritable key, Text value；输出Text key, Iterablereduce中数据类型需要做一点小变化：因为题中要求输出两个值作为结果，故将其转化为字符串的形式：输入格式为map中的输出：Text key, Iterable values输出格式则均为：Text,Text具体操作：将总成绩和平均成绩都写到Stri...

2019-12-02 23:58:38 801 1

本文是为了给一个朋友介绍基本概念。朋友不是做这方面的，但是近期要做一个和人工智能结合的项目，需要了解相关知识，里面概念解释的十分浅显，适合入门。机器学习：概念：让机器具有学习的能力。想象一下2岁的宝宝是怎么学习的。你给他看一只狗狗的图片（假设是白色中等体型），告诉宝宝，这是一只小狗狗哦。下次宝宝再见到类似的狗狗（黄色中等体型，或者小型），他会脱口而出，狗狗。这表明他学到了。但是如果今天遇到一...

2019-11-18 14:32:59 270

原创阿里天池O2o优惠券预测思路

读取数据集。dfoff, dftest ,dfon没用上。查看dfoff（训练集）的信息，描述等。查看dfoff数据集中，使用优惠券购买商品的条数，没使用优惠券购买商品的条数，有优惠券却不购买商品的条数，没有优惠券也不购买商品的条数处理 Discount_rate这个特征。Discount_rate列，查看类型，发现有三类表示形式。4.1：若折扣率类型为‘null’...

2019-11-17 17:48:56 706 1

原创读论文—基于统计模型改进Word2vec优化策略研究

项目项目项目项目1项目2项目3摘要后的摘要该文从训练词向量的语言模型入手，研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点，引入TFIDF文本关键词计算法，提出了一种基于关键词改进的语言模型。研究发现，经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系，而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系，在词向量...

2019-11-17 17:25:01 569

weixin_45263178的博客