自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_64365047的博客

原创 Day14——Python文本挖掘数据分析

免费流量中,搜索流量占60%,即搜索流量只占总流量的30%-40% · 付费流量没有特定的比例,合理的值是一般不超过40%(正常销售时期),如果此类目利润率高竞争激烈,占比80%也有可能 · 看店铺付费流量比例是否健康,应该看广告费用在全店销售额的占比.一般控制在10% 左右.(同样的广告费用占比,降低CPC(点击成本),付费流量占比会上升) · 付费流量带动免费流量的前提:1.引来的流量是否适合你的店铺和宝贝;竞争分析-流量结构-业务逻辑 · 目前的流量主要由三大块构成:免费流量,付费流量和自主访问。

2024-06-21 08:15:00 1115

原创 Day13——Python文本挖掘数据分析

3.灭鼠0-50价格段的产品市场中: · 10-20价格段市场容量大,竞争度低,值得进一步开发,20-30也不错 · 店铺类型方面天猫明显优于淘宝 · 市场份额高的型号是粘鼠板,然而型号0005市场份额还行,竞争度较低,值得开发 · 产品的物理形态基本都是固体,也是被大众认可的形态 · 当物理形态为固体,净含量为1时,市场份额高竞争度低,值得开发 · 思考:数据分类多是人为填写的,那么分类的严谨性和可扩展性都值得考量,需要结合业务逻辑和市场环境进一步判断.可见：当物理形态为固体,净含量为1时,潜力较大。

2024-06-20 08:30:00 584

原创 Day12——Python文本挖掘数据分析

清洗:去掉大量缺失值的列,去掉单一值的列,去掉逻辑上不可用的列,如:‘时间’,‘链接’,‘主图链接’,‘主图视频链接’,‘页码’,‘排名’,‘宝贝标题’,‘运费’,‘下架时间’,‘旺旺’查看各产品’类别’总的’预估销售额’的分布,以此表示市场分布情况。结果依单宝贝销售额降序,即依竞争度升序,这里销售额占比可以理解为市场份额可见0-50容量大,竞争大,大容量市场(对比的是50-100,容量小,竞争稍小)200-250,竞争小,做高价市场的优先选择,属于机会点。

2024-06-19 08:30:00 562

原创 Day11——Python文本挖掘数据分析

由于其中的时间列是从2015年11月到2018年10月,而我们需要的是2016-2018年每月完整的数据(方便从年变化的角度分析产品)灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%, 可以认为是明星产品类目,需要持续投资和重点关注。故这里我们可以简单的用线性回归预测-即对于每个子类目市场,用15,16,17年的11/12月销售金额预测18年的对应月份。每年对应月份的数据是线性变化的(一是因为数据少,二是认为随着年份的增长,交易额在大环境下是稳步变化的)

2024-06-18 09:45:00 880

原创 Day10——学习 Spark SQL

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 10:15:34 1201

原创 Day9——学习spark

在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。 Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。

2024-06-14 14:09:48 992

原创 Day8——学习Hbase

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-13 16:37:18 599

原创 Day7——学习 zookeeper

ZooKeeper（动物园管理员）是一个分布式的、开源的分布式应用程序的协调服务框架，简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目，是一个树形目录服务。

2024-06-13 16:11:14 848

原创 Day6——学习HIVE

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员处理大数据的难度以MR 作为计算引擎（也可选择Spark计算引擎）、HDFS 作为存储系统，为超大数据集设计的计算/ 扩展能力。

2024-06-12 22:50:09 1083

原创 Day5——电商日志数据分析

今天完成第二，三问统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为了统计各个省份的浏览量并进行必要的ETL操作，我们设计了一个Mapper类（P2Mapper），其主要功能包括从日志文件中抽取有价值的字段，并解析IP以获取省份信息。完整ETL过程抽取（Extract）：从原始日志文件中抽取数据行。

2024-06-12 14:21:10 602

原创 Day4——电商日志数据分析

今天完成电商数据分析第一问：统计页面浏览量（每行记录就是一次浏览）这个基于Hadoop的MapReduce程序用于统计网页浏览量。它包含以下组件和功能：PageViewDriver类是程序的入口点，负责设置作业的配置和运行。PageViewMapper类是Mapper的实现，将输入数据处理为键值对。PageViewReducer类是Reducer的实现，对Mapper的输出进行聚合和处理。Mapper和Reducer的输出键值对类型都是Text和IntWritable。

2024-06-12 13:54:32 538

原创 Day 3——电商日志文件分析

今天开始了第二个项目——电商日志数据分析（今天仅仅开个头）以上就是今天做的一点工作啦。

2024-06-06 14:52:05 280

原创手机流量分析项目Day2 出现问题

1.Java Runtime Environment无法继续执行2.一直不输出。

2024-06-05 18:01:40 249

原创生产实习第一个项目Day1——手机流量统计

Hadoop是一个开源的分布式计算框架，主要用于处理大规模数据集。在Hadoop中进行手机流量日志分析项目，主要是为了收集、处理和分析移动设备产生的海量网络流量数据。

2024-06-04 23:54:36 1001

原创【无标题】

2024-01-12 19:05:41 382 1

原创数据分析与可视化实践五

2024-01-12 18:54:43 473 1

原创数据分析与可视化实践四

2024-01-12 18:48:54 377 1

原创数据分析与可视化实践二

2024-01-12 18:42:16 348

原创数据分析与可视化实践一

8、如何将数组a = np.arange(10).reshape(2,-1)和数组b= np.repeat(1,10). reshape(2,-1)水平堆叠?3、使用np.random.random创建一个10*10的ndarray对象，并打印出最大最小元素;4、创建一个10*10的ndarray对象，且矩阵边界全为1，里面全为0;1、创建一个元素为从10到49的 ndarray对象D1;5、创建一个范围在(0,1)之间的长度为12的等差数列;6、创建一个长度为10的随机数组并排序;

2024-01-12 18:30:11 716

原创大数据时代下数据科学与大数据技术专业的前景很好

增长的需求：随着数字化转型加速和数据量爆炸式增长，企业越来越重视数据的价值。高薪水水平：由于数据科学与大数据技术专业的需求量较高且供应相对较少，该领域的薪资水平较高。根据地区和经验不同，数据科学家和大数据工程师的年薪可以达到很高的水平。他们可以利用自己的技能和知识来提供数据分析、咨询和解决方案服务，满足企业和组织的需求。它是一个充满潜力和机会的领域，对于对数据感兴趣并具备相关技能的人来说，将有很多就业和职业发展的机会。为了保持竞争力，专业人士需要不断学习新的技术和工具，跟随行业的最新趋势。

2024-01-10 23:50:33 545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

辰.... CSDN认证博客专家 CSDN认证企业博客

码龄3年

IP 属地：陕西省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

20: 原创

121万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

469: 积分

177: 粉丝

269: 获赞

3: 评论

244: 收藏

私信

关注

热门文章

分类专栏

生产实习 14篇

最新评论

数据分析与可视化实践一
CSDN-Ada助手: 非常棒的博客！很高兴看到你分享了关于数据分析与可视化的实践一。你的文章内容很详细，对于如何将数组a和数组b进行水平堆叠，以及使用np.random.random创建ndarray对象等问题给出了清晰的解答。继续创作下去吧！除了已经提到的知识和技能，你可以进一步探索数据分析与可视化中的其他方面。比如，可以学习如何使用数据分析工具库（如Pandas）来进行数据清洗和处理，或者学习如何使用可视化工具库（如Matplotlib）来创建更丰富的图表和图形。此外，你还可以了解一些常用的数据分析算法，比如聚类算法、回归分析等，以及如何使用这些算法来解决实际问题。同时，了解一些统计学的基础知识也会对你在数据分析领域的发展有所帮助。希望我的建议能对你有所帮助，期待看到你更多精彩的博客！继续保持努力和谦虚的态度，相信你会在数据分析与可视化领域取得更大的进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据分析与可视化实践二
CSDN-Ada助手: 恭喜您完成了第三篇博客《数据分析与可视化实践二》，持续创作是非常了不起的。在下一步的创作中，我建议您可以尝试探索更多数据分析和可视化的技巧，比如深入学习一些高级的数据处理工具或者尝试结合不同领域的数据进行分析，这样可以让您的博客内容更加丰富多样。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
数据分析与可视化实践四
CSDN-Ada助手: 恭喜作者持续分享数据分析与可视化的实践经验，第四篇博客内容丰富，让读者受益匪浅。建议在下一篇博客中，可以尝试结合实际案例，分享更多数据分析与可视化的实际应用，让读者更加深入地理解和应用这些技术。期待作者的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
数据分析与可视化实践五
CSDN-Ada助手: 恭喜用户持续创作，第5篇博客的标题“数据分析与可视化实践五”看起来非常引人注目！您的博客系列一直以来都给读者带来了很多有价值的内容，深入浅出地介绍了数据分析和可视化的实践方法。我相信这些实践经验对初学者来说非常有帮助。对于下一步的创作，我谦虚地建议您可以考虑以实例为重点，通过具体的案例来展示数据分析和可视化的应用。这样能够更加生动地阐述相关概念和技术，并且读者也能更好地理解和运用。同时，您也可以尝试探索一些新的数据分析和可视化工具或方法，给读者带来更多的选择和启发。再次恭喜您，并期待您未来更多精彩的博客作品！
【无标题】
CSDN-Ada助手: 这是一篇简洁而神秘的博客，标题为“【无标题】”。我祝贺你持续创作，勇于尝试不同的主题和写作风格。在下一步的创作中，或许你可以尝试给文章加上一个有吸引力的标题，让读者在一瞥之下就能被吸引住。此外，也可以考虑在文章中加入更多的细节和解释，以便让读者更好地理解你的思考和观点。期待你未来更多的精彩作品！

最新文章

提示

确定要删除当前文章？

取消删除