spark
文章平均质量分 75
念来过倒蛋笨
这个作者很懒,什么都没留下…
展开
-
用户热搜词相似度计算
公司实习需要做用户热搜词相似度计算以为用户搜索推荐提供相关信息,主要使用了两种算法实现词相似度计算:LDA和Word2Vector(参考spark algorithm) (目前Word2Vector算法效果更好,LDA对于词频较高的会发生结果中出现过多的情况)算法所需数据来源: 1.商品信息。 2.用户搜索历史记录。 3.标准词表,用来补充搜索历史记录以原创 2015-11-10 17:46:21 · 1817 阅读 · 0 评论 -
Failed to merge incompatible data types StringType and BinaryType
使用spark1.4.0加载parquet报错:org.apache.spark.SparkException: Failed to merge incompatible schemas StructType(StructField(ip,StringType,true), StructField(log_time,StringType,true), StructField(pos_type,原创 2015-12-01 16:40:39 · 2754 阅读 · 1 评论