![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 58
念来过倒蛋笨
这个作者很懒,什么都没留下…
展开
-
hive jdbc所需jar包
Hadoop版本:2.4.0Hive版本:0.13.1原创 2014-09-04 11:30:56 · 14423 阅读 · 0 评论 -
hive导入HDFS数据
HDFS文件路径:/user/test/qar_test.txt原创 2014-09-04 10:11:36 · 28052 阅读 · 1 评论 -
Hadoop开发环境搭建
Hadoop版本:2.4.0集群运行环境:Ubuntu14.04java version:1.7.0_原创 2014-08-23 10:36:59 · 8883 阅读 · 0 评论 -
用户热搜词相似度计算
公司实习需要做用户热搜词相似度计算以为用户搜索推荐提供相关信息,主要使用了两种算法实现词相似度计算:LDA和Word2Vector(参考spark algorithm) (目前Word2Vector算法效果更好,LDA对于词频较高的会发生结果中出现过多的情况)算法所需数据来源: 1.商品信息。 2.用户搜索历史记录。 3.标准词表,用来补充搜索历史记录以原创 2015-11-10 17:46:21 · 1781 阅读 · 0 评论 -
Failed to merge incompatible data types StringType and BinaryType
使用spark1.4.0加载parquet报错:org.apache.spark.SparkException: Failed to merge incompatible schemas StructType(StructField(ip,StringType,true), StructField(log_time,StringType,true), StructField(pos_type,原创 2015-12-01 16:40:39 · 2688 阅读 · 1 评论