- 博客(1346)
- 资源 (171)
- 问答 (12)
- 收藏
- 关注
原创 19 | spark 统计 每列的数据非缺失值
计算CSV文件中每列的数据覆盖率(非缺失值的百分比)时,您可以使用提供的Java代码来完成这项任务。
2023-09-05 23:32:18
508
原创 17 | Spark中的map、flatMap、mapToPair mapvalues 的区别
是用于对RDD(Resilient Distributed Dataset)进行转换的不同操作。这些操作可以用来处理分布式数据集中的元素,但它们的用途和行为略有不同。操作,并输出了相应的结果。请确保您的Spark环境已正确配置,并且Spark依赖已包含在项目中,以使上述代码能够运行。以下是完整的Apache Spark Java代码示例,包括创建SparkContext和RDD,并使用。请注意,这些示例仅用于演示目的,需要根据您的环境和数据进行适当调整。上述代码创建了一个Spark应用程序,依次执行了。
2023-09-04 20:57:20
612
原创 在Jupyter 中 from XXX import * 报错
通过执行 sys.path.append(‘./’) 这行代码,您将当前目录(即’./')添加到 sys.path 中。这意味着 Python 程序会在当前目录中查找模块,以便能够正确导入在当前目录下的模块文件。这在某些情况下很有用,特别是当您的 Python 脚本或程序需要导入同一目录下的自定义模块时。通过将当前目录添加到 sys.path 中,您可以确保Python可以找到并正确导入当前目录下的模块。但是 XXX.py 确实在同一个目录下,但是无法导入XXX中的XX方法。解决问题是 : 麻烦添加。
2023-09-03 16:25:08
765
原创 16 | Spark SQL 的 UDF(用户自定义函数)
UDF允许您定义自己的函数,以便在DataFrame或SQL查询中使用。在本教程中,我们将演示如何创建一个UDF,该UDF将字符串的长度作为输入,并返回该字符串的长度作为输出。UDF允许您定义自己的函数,并将其应用于Spark DataFrame或Dataset。:在DataFrame操作或SQL查询中,您可以使用注册的UDF函数。方法将UDF函数注册到SparkSession中,以便后续可以在SQL查询或DataFrame操作中使用。:您需要创建一个包含要应用UDF的数据的DataFrame。
2023-09-03 13:45:04
1045
原创 15 | Spark SQL 的 SQL API 操作
Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询,并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。
2023-09-03 13:19:23
804
原创 14 | Spark SQL 的 DataFrame API 读取CSV 操作
在这个需求中,我们将使用 Apache Spark 的 DataFrame API 对包含销售数据的 CSV 文件进行不同类型的数据操作。当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时,你可以按照以下步骤进行操作。从包含销售数据的 CSV 文件中加载数据,并创建一个 DataFrame 来存储它。方法显示 DataFrame 的前几行数据,以便查看数据的内容。将包含多个值的列拆分成多个列,以便更细粒度地处理数据。将多个列的值合并成一个新的列,以便创建更有用的信息。
2023-09-03 13:14:29
1582
2
原创 13 | Spark SQL 的 DataFrame API
DataFrame 是 Spark SQL 中的核心数据结构,它是一个分布式的带有命名列的数据集,类似于传统数据库表或 Pandas 数据帧。DataFrame API 提供了多种操作和转换方法,包括选择、过滤、分组、聚合、连接等,用于处理和分析数据。:将数据按照一个或多个列进行分组,然后对每个组进行聚合操作(如计数、平均值、总和等)。:连接两个或多个 DataFrame,可以进行内连接、外连接等不同类型的连接操作。:选择一个或多个列以构建新的 DataFrame。:将多个列的值合并成一个新的列。
2023-09-03 10:30:28
629
原创 12 | 使用 Spark SQL执行CURL
SparkSession 是 Spark SQL 2.0 引入的一个关键概念,它是 Spark 2.0 之后的版本中取代了旧版的 SparkConf、SparkContext 和 SQLContext 的核心入口点。:Spark SQL 是一个用于处理结构化数据的 Spark 组件,它结合了 Spark 引擎的强大性能和 SQL 查询的表达力,允许用户在大规模数据上执行 SQL 查询和数据分析。在这个教程中,我们将介绍Spark SQL的基本概念和示例代码,帮助你入门Spark SQL的使用。
2023-09-03 09:33:45
753
1
原创 Exception in thread “main“ java.lang.NoSuchMethodError: scala.util.Properties$.coloredOutputEnabled(
这个错误是由于Spark项目使用的Scala版本与你的项目中使用的Scala版本不兼容所引起的。Scala在不同版本之间可能会引入不同的方法和特性,因此如果你的Spark项目和你的项目使用了不同版本的Scala,就可能会导致这种类型的错误。在执行 Java spark 任务中 ,出现。查看本地的scala版本,发现不一致。
2023-09-03 09:25:09
158
原创 10 | Spark 查找每个单词的最大行号
假设你有一个包含文本行号和文本内容的RDD,现在你想找出每个单词出现在哪些行,并计算它们出现的最大行号。需求是从包含文本行号和文本内容的RDD中找出每个单词出现在哪些行,并计算它们出现的最大行号。代码首先将每行文本内容拆分成单词,并将每个单词与其所在的行号映射为键值对(单词, 行号)。代码从一个包含文本行号和文本内容的RDD中读取数据,示例数据包括四行文本。分析文本数据,找出每个单词在文本中的位置,然后找出每个单词出现的最大行号。操作对相同单词的行号进行聚合,并找出每个单词出现的最大行号。
2023-09-02 11:06:39
500
原创 9 | 求出不同性别和不同科目的学生平均分数
我们有一组学生的成绩数据,其中包括学生的姓名、性别和科目,我们需要分析不同性别和不同科目的学生平均分数。
2023-09-02 10:54:36
170
原创 7 | 计算每个键对应的平均值,并按降序排序
假设您有一个包含销售订单的RDD,其中每个元素是一个键值对,其中键表示产品名称,值表示销售数量。是一个Spark转换操作,它用于将一个键值对RDD中的每个元素映射到另一个键值对RDD,同时可以对元素进行转换或重新排列。操作将每行数据转换为键值对形式的RDD,其中键是CSV文件的第一列,值是CSV文件的第二列。操作的作用是将原始RDD中的元素转换成键值对,然后返回一个新的键值对RDD。中的每个元素进行转换,将每个键(String类型)映射到一个新的键值对。操作中进行聚合,以计算每个键对应的总和和计数。
2023-09-01 23:30:33
706
原创 6 | 从文本文件中读取单词并输出不重复的单词列表
Transformation 操作是用于从一个 RDD(Resilient Distributed Dataset)创建一个新的 RDD,通常是通过对原始 RDD 的元素进行映射、筛选、分组等操作来实现的。Transformation 操作不会立即执行,而是惰性计算,只有在 Action 操作触发时才会真正执行。Action 操作会导致 Spark 集群上的计算任务立即执行。在一个数据处理项目中,我们需要从一个文本文件中提取单词,并生成一个包含不重复单词的列表,以进行进一步的分析或处理。
2023-09-01 21:41:41
511
原创 5 | Java Spark WordCount打成Jar 包测试
使用 Maven 或 Gradle 等构建工具,将您的项目编译并打包成一个包含依赖项的 JAR 文件。这个 JAR 文件将包含您的 WordCount 代码以及 Spark 依赖项。运行此命令将在 Spark 集群上启动 WordCount 作业,它将读取指定的输入文件,执行 WordCount 操作,然后将结果打印到控制台。首先,确保 编写了 WordCount 代码,已经提供了正确的输入文件路径。将生成的 JAR 文件上传到您的 Spark 集群中,然后使用。
2023-09-01 21:09:01
970
原创 4 | Java Spark实现 WordCount
简单的 Java Spark 实现 WordCount 的教程,它将教您如何使用 Apache Spark 来统计文本文件中每个单词的出现次数。首先,确保您已经安装了 Apache Spark 并设置了运行环境。您需要准备一个包含文本内容的文本文件,以便对其进行 WordCount 分析。
2023-09-01 19:56:47
1198
原创 3 | Java Spark 配置和 数据筛选
下面将演示如何使用 Apache Spark 的 Java API 来加载数据、筛选出偶数,并计算它们的总和。Apache Spark 是一个强大的分布式计算框架,适用于大规模数据处理任务。
2023-09-01 19:19:35
652
原创 2 | Window 搭建单机 Hadoop 和Spark
搭建单机 Hadoop 和 Spark 环境可以学习和测试大数据处理的基础知识。在开始之前,请确保你已经安装了 Java 开发工具包(JDK),并且已经下载了 Hadoop 和 Spark 的最新版本。你可以从官方网站或镜像站点获取它们。
2023-09-01 18:47:55
681
原创 66 | RMF细分聚类案例
RFM模型基于三个关键指标,即最近购买时间(Recency)、购买频率(Frequency)和消费金额(Monetary),通过这些指标分析客户的购买行为,将客户划分为不同的价值层级。随着电子商务的迅速发展,企业面临着巨大的竞争压力,为了有效地满足不同客户群体的需求,提高市场份额,更深入地了解客户的消费行为变得至关重要。使用不同的符号(五角星、圆点、三角形)代表不同价值类别的用户,绘制了F值与M值的散点图,以展示客户的分布情况。统计了每个用户的总购买金额(消费金额),计算了M值,并绘制了M值的分布直方图。
2023-08-21 21:32:28
138
原创 65 | 增长模型案例
增长模型代表了一种综合性的方法论,旨在通过深入了解用户行为、市场趋势和数据洞察,来指导企业制定有效的增长战略。这种方法突破了传统的经验主义,将决策过程建立在数据驱动和实验的基础之上。增长模型不仅仅是一种理论,更是一种实际操作的框架,帮助企业在各个层面实现业务增长。
2023-08-21 21:09:07
165
原创 64 | A/B测试案例
A/B测试(又称为分割测试或对照测试)是一种实验性的方法,用于比较两个或多个变体(例如不同的网页设计、广告文案、功能等)在特定指标上的性能,从而确定哪个变体在某个目标上表现更好。通过随机将用户分配到不同变体的组中,收集数据并进行统计分析,你可以做出更准确的决策,以优化产品、服务或内容。为什么要使用A/B测试?A/B测试是基于实际数据和统计分析的方法,它可以帮助你避免主观判断和假设,从而做出更可靠的决策。通过A/B测试,你可以确定某个变化是否会显著影响用户行为,从而有效地改进产品或内容,提升业务指标。
2023-08-21 20:56:45
94
1
原创 63 | 留存分析案例
通过数据驱动的方法,我们可以识别影响留存率的因素,制定更精准的留存策略。随着信息时代的到来,企业面临着更多机会和挑战,通过科技手段收集和分析数据,深入了解客户行为和需求,成为了提升留存率的重要策略之一。然后,我们使用Kaplan-Meier生存分析方法绘制了整体的留存曲线,从中可以看出会员的留存率随着入会月数的增加逐渐下降,这提醒我们需要关注新会员的留存情况。例如,不同的会费支付方式和会员卡类型对留存率产生了不同的影响,这提示我们可以针对不同的客户群体制定不同的留存策略。
2023-08-21 20:28:22
102
原创 60 | 用户画像案例
用户画像是一种分析和描述目标受众特征的方法,可以帮助您更深入地了解您的受众群体,揭示他们的兴趣、需求和行为。首先,您需要收集有关用户的数据,这可以包括用户的基本信息(如年龄、性别、地理位置)、在线行为(如浏览历史、购买记录)、社交媒体活动等。使用数据分析工具(如Python、R、Excel等),对数据进行探索性分析。查看用户的特征分布,比如年龄分布、性别比例等。对每个用户群组进行更详细的分析,进一步了解他们的兴趣、需求和行为。例如,分析特定群组的购买偏好、浏览内容等。根据监测结果,优化和调整您的营销策略。
2023-08-19 12:04:28
195
原创 59 | RFM模型实战案例
RFM模型是一种用于客户分析和营销策略制定的工具,其名称来源于三个关键指标:最近一次购买(Recency)、购买频率(Frequency)和购买金额(Monetary)。RFM模型的核心思想是通过分析客户在这三个方面的行为,将客户划分为不同的分群,以便更好地了解客户的价值和行为特征,并制定针对性的营销计划。这个指标衡量了客户最近一次购买产品或服务的时间。一般来说,最近购买的客户可能更有可能继续购买,因此他们的价值相对较高。这个指标表示在一段时间内客户购买产品或服务的次数。
2023-08-19 11:43:15
125
原创 30 | 聚类分析
图像压缩时用较少的数据量来表示原有的像素矩阵的过程,该过程称为图像编码,但是数字图像的数据量庞大,需要占用很大的存储空间,给存储、计算、传输等带来不小的资源消耗,因此会预先对数字图像进行压缩,压缩的方法之一就是聚类算法。聚类也是进行异常检测的方法之一,常用的便是基于距离的异常检测方法,该方法包含并拓展了基于统计的思想,即使数据集不满足任何特定分布模型,仍能有小弟发现离群点,特别是当空间维度数目较高时,算法的效率比基于密度的高很多。常用的聚类算法分为基于划分、层次、密度、网络、统计学、模型等类型的算法。
2023-08-19 10:27:56
166
原创 58 | 小红书产品体验报告
用户基数大且价值高2022 年小红书最新数据显示,目前小红书有超 2 亿月活用户, 用户基数非常大。其中 72%为 90 后,50%分布在一二线城市。用户可分为六大人群标签:Z 世代、新锐白领、都市潮人、单身贵族、精致妈妈 和享乐一族。可以看出,这类用户普遍生活质量偏高且具有较高的消费潜能。这为小红薯平台提供了巨大 的获利的“客源”。为消费者提供决策用户通过浏览笔记来种草、拔草想要的或者相关的商品,通过笔记更好的了解商品是否是真的满足自己的 期望要求和需要,来为自己的消费更好的决策。
2023-08-19 09:27:46
289
原创 57 | TAPTAP客户端分析
前面已经说过,游戏爱好者更倾向于玩“好玩”的游戏,在TapTap游戏库中选择游戏时,每款游戏的标签和评分也会显示,玩家除了自己主观判断外,可以根据标签和评分来选择是否点击这款游戏,这点是非常好的。发帖是用户之间交流的重要方式,但taptap客户端发帖却仅仅只限于文字和图片,我认为在传播信息方面,文字是不如图片的,图片是不如视频的,特别是对于游戏这种交互性极强的产品,视频其实很大程度上比图片文字传达信息效果好。进入论坛后,taptap采用了点聚式的交互方式,无论你在浏览何处的帖子,你都可以直接点击然后发帖。
2023-08-19 08:53:36
154
原创 56 | 国内游戏直播竞品分析
综上所述, 斗鱼最为全面但更注重于社交类,不仅有丰富的弹幕互动形式, 更建立了鱼吧, 用户可以畅所欲言, 不仅主播可以创造平台内容, 观众也可以发 挥自己的想象力去引进流量。熊猫则注重娱乐(星秀直播和自创节目), 引进一系列的明星,吸引粉丝跟 进潮流。同时自创一系列节目, 培养平台的粉丝而不是主播的粉丝。(与斗鱼不 同,不能自发的创造内容而引进流量)。因此,如果一个用户需求在于社交,那么斗鱼将是很好的选择;如果用户对 社交不太敏感,只关注于娱乐,那么熊猫直播对于他而言则更加适合。
2023-08-19 08:46:17
489
原创 55 | 商品数据化运营
商品是指狭义上的实物商品,不包含有偿服务、虚拟商品等。商品和产品在很多场合下可以互用,但在互联网领域,产品也可用来表示与用户交互的载体,例如app、网站等。但这类产品的概念非以下所讨论的商品范畴之内。
2023-08-18 18:37:36
88
原创 54 | 会员数据化运营概述
RFM模型是根据会员最近一次购买时间R(Recency),购买频率F(Frequency),购买金额M(Monetary)计算得出RFM得分,通过这3个维度来评估客户的订单活跃价值,常。针对营销活动展开的,通常在做会员营销活动之前,通过营销响应预测模型分析,找到可能响应活动的会员特征及整体响应的用户比例、数量和可能带来的销售额。在该模型中,不要求用户发生交易,因此可做未发生登陆、注册等匿名用户的行为价值分析,也可以做实名用户分析。用于评估用户的价值情况,是区分会员价值的重要模型和参考依据,也是。
2023-08-18 18:36:48
193
原创 53 | 金融行业股票销售指标分析
通过深入分析交易量、成交金额、涨跌幅等关键指标,投资者可以更好地了解市场趋势、投资者情绪以及投资风险,从而做出更明智的投资决策。同时,合理运用数据分析工具和技术,能够提高分析的效率和准确性,为金融行业的投资者和相关机构提供更全面的市场洞察。通过深入分析关键的销售指标,投资者、金融机构和交易平台可以更好地了解市场趋势,作出明智的投资决策,优化交易策略。考察市场中的重要事件,如公司公告、政策变化等,看它们是否与涨跌幅和交易活跃度的波动相关。考察市场中的重要事件,如宏观经济因素、公司业绩等,分析其对指标的影响。
2023-08-17 12:42:20
604
原创 52 | 电商行业销售指标分析
通过这样的分析案例,电商公司可以获得更深入的洞察,制定更明智的决策,以提升业务绩效和竞争力。请注意,具体案例可能因公司规模、市场情况和数据可用性而有所不同。电商公司A是一家在线零售商,销售各种商品,包括服装、家居用品和电子产品。该公司在过去一年内进行了一系列营销活动和扩展计划。通过对电商公司A的综合业绩进行分析,了解其销售趋势、市场份额、客户满意度和盈利能力。
2023-08-17 12:34:01
127
原创 51 | 用户增长指标
用户增长相关指标是产品运营和市场营销领域中的关键衡量标准,用于评估用户活跃度、参与度以及产品的成功程度。这些指标能够揭示用户的行为模式、市场需求以及潜在增长机会。在本文中,我们将深入探讨一系列与用户增长相关的指标,以便更好地理解它们的含义和作用。
2023-08-17 11:55:08
220
原创 50 | 国产商业漫画分析
总结一下,在报告开头我们提出了几个问题。以下是从数据分析中得到的一些结论:与以少年漫画为主力的日漫不同,当前国漫市场更偏女性向,恋爱、耽美向的作品更多,都市、总裁类题材的少女漫也屡见不鲜,古风、玄幻等我国特有的题材类型也很受欢迎。不过近年国漫也在往越来越多元化的方向发展,开始出现更多搞笑、热血向的漫画。比起早年漫画工作室撑起国漫半边天的景象,近两年越来越多的个人创作者开始投入商业化漫画的市场。由于数据来源的问题,本分析报告的结论总不免有失偏颇,毕竟各家漫画平台在定位上各有不同。本分析仅仅作为参考。
2023-08-14 17:46:11
194
原创 49 | 公司销售数据分析
本数据是2012~2014年间一家生产体育类产品的全球销售订单数据,分别按时间、产品类别、销售国家统计产品销售情况,分析销售额和利润额统计各产品市场占有份额,为下一步生产计划提供有价值的建议。在全球的销售额中,美国的销售额是最高的,高达650811000美元,占到了总销售额大部分,说明了美国是主要的服务国家。其次,日本,中国,加拿大,英国销售额也是很重要的一部分。绘制了不同的销售方式销售总额,其中户外商店的占了绝大部分,户外商品 店、运动品店和高尔夫用品店的销售额为前三甲。
2023-08-14 17:12:49
135
原创 48 | 电子产品销售分析
Unnamed: 行号event_time:下单时间order_id:订单编号product_id:产品标号category_id :类别编号category_code :类别brand :品牌price :价格user_id :用户编号age :年龄sex :性别local:省份。
2023-08-14 17:06:11
194
手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面LDA模型进行分析
2023-11-03
03.04 Requests豆瓣.ipynb
2023-11-01
SpringBoot+Mybatius图书管理系统 语言:Java 开发工具:IntelliJIDEA-2019.3 JDK版
2023-10-30
通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析生成、文件操作
2023-10-22
基于Java的学生管理系统,旨在提供学生信息的管理和查询功能
2023-10-22
基于Python编程的RFM细分聚类案例
2023-08-21
65 - python增长模型案例
2023-08-21
A/B测试 展示如何运用Python进行数据分析、可视化和统计显著性检验
2023-08-21
63 - 留存分析在现代商业中的关键作用 python 案例
2023-08-21
62 - Python 漏斗分析案例
2023-08-20
61 - 归因渠道分析案例 python
2023-08-20
60 - python 用户画像案例
2023-08-19
59 - RFM模型实战案例 python
2023-08-19
代码实操:Python聚类分析
2023-08-19
50 - 国产商业漫画分析
2023-08-16
49 - python公司销售数据分析
2023-08-14
48 - python电子产品销售分析
2023-08-14
41 - 京东商家书籍评论数据分析
2023-08-13
40 - NBA球员信息数据分析
2023-08-13
38 - 浦发银行股票分析案例
2023-08-13
37 - 电影数据分析案例
2023-08-13
36 - 银行贷款数据分析
2023-08-13
【数据分析实例】 2021年十万条厦门招聘数据分析
2023-08-13
34 - 某欧洲电商公司行为分析
2023-08-13
33 - 美国总统数据分析 python
2023-08-13
gitcode 可以搭建gitpage
2022-08-25
启动CDH,报错ERROR StatusLogger No log4j2 configuration file found. Using default configuration...ogging.
2020-03-16
cloudera-manager-agent.x86_安装报错
2020-03-15
Sqoop导入数据到Hbase报错
2020-03-01
Centos7运行Elasticsearch6.5.4报错
2020-01-13
Centos7运行elasticsearch-6.5.4报错
2020-01-09
为什么在腾讯云服务器测试uwgis老是失败
2019-11-17
为什么在腾讯云服务器测试uwgis老是失败
2019-11-17
npm安装全局怎么使用加速?
2019-04-23
npm安装全局怎么使用淘宝源加速?
2019-04-22
npm这种情况,nodejs是不是安装好了
2019-04-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人