- 博客(20)
- 收藏
- 关注
原创 Day14——Python文本挖掘数据分析
免费流量中,搜索流量占60%,即搜索流量只占总流量的30%-40% · 付费流量没有特定的比例,合理的值是一般不超过40%(正常销售时期),如果此类目利 润率高竞争激烈,占比80%也有可能 · 看店铺付费流量比例是否健康,应该看广告费用在全店销售额的占比.一般控制在10% 左右.(同样的广告费用占比,降低CPC(点击成本),付费流量占比会上升) · 付费流量带动免费流量的前提:1.引来的流量是否适合你的店铺和宝贝;竞争分析-流量结构-业务逻辑 · 目前的流量主要由三大块构成:免费流量,付费流量和自主访问。
2024-06-21 08:15:00 1115
原创 Day13——Python文本挖掘数据分析
3.灭鼠0-50价格段的产品市场中: · 10-20价格段市场容量大,竞争度低,值得进一步开发,20-30也不错 · 店铺类型方面天猫明显优于淘宝 · 市场份额高的型号是粘鼠板,然而型号0005市场份额还行,竞争度较低,值得开发 · 产品的物理形态基本都是固体,也是被大众认可的形态 · 当物理形态为固体,净含量为1时,市场份额高竞争度低,值得开发 · 思考:数据分类多是人为填写的,那么分类的严谨性和可扩展性都值得考量,需要结合 业务逻辑和市场环境进一步判断.可见:当物理形态为固体,净含量为1时,潜力较大。
2024-06-20 08:30:00 584
原创 Day12——Python文本挖掘数据分析
清洗:去掉大量缺失值的列,去掉单一值的列,去掉逻辑上不可用的列,如:‘时间’,‘链接’,‘主图链接’,‘主图视频链接’,‘页码’,‘排名’,‘宝贝标题’,‘运费’,‘下架时间’,‘旺旺’查看各产品’类别’总的’预估销售额’的分布,以此表示市场分布情况。结果依单宝贝销售额降序,即依竞争度升序,这里销售额占比可以理解为市场份额可见0-50容量大,竞争大,大容量市场(对比的是50-100,容量小,竞争稍小)200-250,竞争小,做高价市场的优先选择,属于机会点。
2024-06-19 08:30:00 562
原创 Day11——Python文本挖掘数据分析
由于其中的时间列是从2015年11月到2018年10月,而我们需要的是2016-2018年每月完整的数据(方便从年变化的角度分析产品)灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%, 可以认为是明星产品类目,需要持续投资和重点关注。故这里我们可以简单的用线性回归预测-即对于每个子类目市场,用15,16,17年的11/12月销售金额预测18年的对应月份。每年对应月份的数据是线性变化的(一是因为数据少,二是认为随着年份的增长,交易额在大环境下是稳步变化的)
2024-06-18 09:45:00 880
原创 Day10——学习 Spark SQL
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。
2024-06-17 10:15:34 1201
原创 Day9——学习spark
在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。 Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。
2024-06-14 14:09:48 992
原创 Day8——学习Hbase
HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。
2024-06-13 16:37:18 599
原创 Day7——学习 zookeeper
ZooKeeper(动物园管理员)是一个分布式的、开源的分布式应用程序的协调服务框架,简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目,是一个树形目录服务。
2024-06-13 16:11:14 848
原创 Day6——学习HIVE
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度以MR 作为计算引擎(也可选择Spark计算引擎)、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力。
2024-06-12 22:50:09 1083
原创 Day5——电商日志数据分析
今天完成第二,三问统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为了统计各个省份的浏览量并进行必要的ETL操作,我们设计了一个Mapper类(P2Mapper),其主要功能包括从日志文件中抽取有价值的字段,并解析IP以获取省份信息。完整ETL过程抽取(Extract):从原始日志文件中抽取数据行。
2024-06-12 14:21:10 602
原创 Day4——电商日志数据分析
今天完成电商数据分析第一问:统计页面浏览量(每行记录就是一次浏览)这个基于Hadoop的MapReduce程序用于统计网页浏览量。它包含以下组件和功能:PageViewDriver类是程序的入口点,负责设置作业的配置和运行。PageViewMapper类是Mapper的实现,将输入数据处理为键值对。PageViewReducer类是Reducer的实现,对Mapper的输出进行聚合和处理。Mapper和Reducer的输出键值对类型都是Text和IntWritable。
2024-06-12 13:54:32 538
原创 生产实习 第一个项目Day1——手机流量统计
Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。在Hadoop中进行手机流量日志分析项目,主要是为了收集、处理和分析移动设备产生的海量网络流量数据。
2024-06-04 23:54:36 1001
原创 数据分析与可视化 实践一
8、如何将数组a = np.arange(10).reshape(2,-1)和数组b= np.repeat(1,10). reshape(2,-1)水平堆叠?3、使用np.random.random创建一个10*10的ndarray对象,并打印出最大最小元素;4、创建一个10*10的ndarray对象,且矩阵边界全为1,里面全为0;1、创建一个元素为从10到49的 ndarray对象D1;5、创建一个范围在(0,1)之间的长度为12的等差数列;6、创建一个长度为10的随机数组并排序;
2024-01-12 18:30:11 716
原创 大数据时代下数据科学与大数据技术专业的前景很好
增长的需求:随着数字化转型加速和数据量爆炸式增长,企业越来越重视数据的价值。高薪水水平:由于数据科学与大数据技术专业的需求量较高且供应相对较少,该领域的薪资水平较高。根据地区和经验不同,数据科学家和大数据工程师的年薪可以达到很高的水平。他们可以利用自己的技能和知识来提供数据分析、咨询和解决方案服务,满足企业和组织的需求。它是一个充满潜力和机会的领域,对于对数据感兴趣并具备相关技能的人来说,将有很多就业和职业发展的机会。为了保持竞争力,专业人士需要不断学习新的技术和工具,跟随行业的最新趋势。
2024-01-10 23:50:33 545
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人