大数据
文章平均质量分 90
程序员进化者
这个作者很懒,什么都没留下…
展开
-
MongoDB知识点本文就够
本文目录一、 Mongo概述(一)Mongo适用场景(二)相关概念(三)Mongo是否需要很大的内存?(四)一、 Mongo概述(一)Mongo适用场景1、网站数据:Mongo非常适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。2、缓存:由于性能很高,Mongo也适合作为信息基础设施的缓存层。在系统重启之后,由Mongo搭建的持久化缓存层可以避免下层的数据源过载。3、在高伸缩性的场景,用于对象及JSON数据的存储。(二)相关概念1、mongodb是一个基于docume原创 2021-01-24 15:05:36 · 705 阅读 · 0 评论 -
使用PySpark处理数据
使用PySpark做用户画像文章目录使用PySpark做用户画像一、数据准备二、用户点击率1.创建SparkSession对象2.读取数据,将数据根据‘~’拆分,获取userid和behavior两列3.统计用户的各类行为数4.将userid,behavior和数量取出作为3列,并转为DataFrame格式5.根据userId进行分组,将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。6.填充缺失值7.将计算的数据作为新列添加到数据8原创 2020-12-27 19:05:17 · 1062 阅读 · 0 评论 -
Pandas数据分析本文就够
十分钟快速上手Pandas数据处理一、常用操作1、csv读取和导出2、dataframe转换为列表3、某一列求和4、某一列格式转换5、选择数据6、修改数据7、删除数据8、处理NaN值9、保留小数和百分数处理10、列名更换11、复制12、相关值替换二、合并数据1、concat2、merge三、排名与排序1、排名,生成排序序号列。不改变数据顺序2、排序,改变数据顺序四、分组统计1、分组求和2、分组计数3、分组求累加值五、复杂操作1、条件赋值一、常用操作1、csv读取和导出df = pd.read_csv(原创 2020-07-16 19:53:58 · 616 阅读 · 0 评论 -
HBase分布式集群搭建(zookeeper+hadoop+hbase)超详细!
环境准备zookeeper:zookeeper-3.4.14hadoop:hadoop-2.8.5hbase:hbase-1.4.13master:namenode、resourcemanager,slave1:secondarynamenode、datanode,slave2:datanode一、Hadoop集群搭建1、hadoop安装包解压tar zxvf hadoop-2.8.5.tar.gz2、hadoop-env.sh、mapred-env.sh、yarn原创 2020-05-11 19:04:33 · 1428 阅读 · 2 评论