自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 热点搜索词统计

在数字化时代,网络已成为信息传播的主要渠道,而热点搜索词则是网民兴趣和需求的直观反映。通过对这些数据的统计和分析,我们不仅能够捕捉到社会关注的焦点,还能够预测市场趋势,甚至对社会动态做出快速响应。

2024-06-21 09:00:00 363

原创 大模型时代:人工智能的新篇章

大模型通常指的是参数数量极多的深度学习模型,如BERT、GPT-3等,它们拥有数十亿甚至数千亿个参数。这些模型之所以被称为“大”,不仅因为参数众多,更因为它们能够处理和理解大量复杂的数据。

2024-06-21 08:00:00 293

原创 关联规则挖掘:发现数据背后的隐藏模式

关联规则挖掘(Association Rule Mining)是一种寻找大数据集中项之间有趣关系的技术。最著名的算法是Apriori算法和FP-Growth算法,它们用于挖掘频繁项集,并从中生成关联规则。

2024-06-21 07:00:00 233

原创 协同过滤推荐算法:智能推荐系统的核心

协同过滤(Collaborative Filtering, CF)是一种利用用户之间的行为相似性或物品之间的属性相似性来提供推荐的方法。它主要分为两类:用户基(User-Based)协同过滤和物品基(Item-Based)协同过滤。

2024-06-20 23:31:37 337

原创 Spark SQL:大数据查询引擎的革新者

Spark SQL 是 Apache Spark 的一个模块,它使得 Spark 支持处理结构化数据。Spark SQL 提供了一个编程接口和一组丰富的数据结构,使得对数据集的查询和处理变得简单而高效。

2024-06-18 18:00:00 1138

原创 HBase:面向列的分布式存储系统

HBase是一个面向列的分布式存储系统,它建立在Hadoop文件系统(HDFS)之上,是Apache Hadoop生态系统的一部分。HBase具有高可靠性、高性能、列式存储、易于扩展等特点,并且完全兼容Hadoop。

2024-06-18 09:30:00 309

原创 Zookeeper:分布式系统的协调引擎

在分布式系统的世界里,确保各种组件之间可靠的协调和通信是非常重要的。这就是 Apache Zookeeper 发挥作用的地方。Zookeeper 是一个开源的服务端协调服务,它使分布式应用程序能够实现高可用性、可靠性和性能。

2024-06-18 09:00:00 1343

原创 Scala:现代工业级编程语言

Scala,全称为"Scalable Language",由Martin Odersky等人设计,旨在解决大规模系统的开发问题。它不仅支持面向对象编程,还支持函数式编程,使得开发者可以根据不同的应用场景选择最合适的编程范式。

2024-06-17 21:00:00 256

原创 Hive:大数据时代的数据仓库利器

Apache Hive 是基于 Hadoop 的数据仓库工具,用于使分析人员和数据工程师能够轻松地处理存储在 Hadoop 文件系统中的大数据。Hive 最初由 Facebook 开发,后来成为 Apache 软件基金会的一个顶级项目。

2024-06-17 20:45:00 497

原创 如何提交代码到码云(gittee)

将代码托管到码云需要先注册好账号网址:需要安装两个软件,git和小乌龟注意有安装先后顺序,先装git,在装小乌龟。安装具体步骤可以参考我的另一篇博客。

2024-06-17 15:47:17 313

原创 Git和小乌龟的安装

将代码托管到码云上需要下载两个软件,分别是Git和Tortoise(小乌龟)安装完成后就可以传代码了。

2024-06-17 15:45:33 366

原创 在虚拟机上,将编写的MapReduce程序打包并上传,启动集群的Linux系统中

2.选择: Build --> Build Artifacts --> Build,然后耐心等待一会,在左侧会自动生成一个out的文件,点击: out —> artifacts —> xxx_ jar。在该目录下,右击打开终端输入scp命名,将jar包上传至启动集群的Linux系统中"/opt/software/" 文件夹下 SCP。打包后在Linux系统中找到 idea的工作地址 然后点击 Idea_workspace -->xxx–> out -->执行结果,执行结果在集群中查看。

2024-06-06 10:48:55 360

原创 CentOS7上安装idea并配置maven远程仓库

下载地址: https://maven.apache.org/download.cgi。CentOS7上安装idea并配置maven远程仓库。上传到自己需要的目录并解压。下载maven安装包。

2024-06-06 09:29:21 340

原创 手机流量统计

统计每个手机号上行流量和、下行流量和、总流量和(上 行流量和+下行流量和),并且:将统计结果按照手机号的前缀 进行区分,并输出到不同的输出文件中去。

2024-06-05 16:01:05 249 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除