- 博客(5)
- 收藏
- 关注
原创 打印数据schema
%pysparkimport jsonpath = '****/part-19999.gz'data = sqlContext.read.json(path)data.printSchema()
2016-12-05 19:15:20 1421
原创 样本抽样
sample_ra = 0.04 random_scope = int(1/sample_ra) rand = random.randint(1,int(4/sample_ra)) if rand > (2*random_scope + 4) or rand < (2*random_scope): continue
2016-12-03 12:50:58 301
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人