自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hadoop中Hive数据仓库的核心技术与应用

接着,通过编写HiveQL查询语句,我们可以方便地分析出哪些商品的销售量最高,或者哪些用户最活跃等信息。Hive作为一个基于Hadoop的数据仓库工具,因其高效的数据处理能力和良好的扩展性而受到广泛关注。:使用SELECT语句进行数据查询,支持加入(JOIN)、分组(GROUP BY)等多种SQL查询功能。:负责存储Hive中数据的结构信息,如表名、列信息、分区信息等。:根据数据特点选择合适的文件格式(如Parquet、ORC),并适时调整Hive配置参数以优化执行计划。

2024-06-12 19:06:54 1185 2

原创 网络爬虫的爬取动态网页的技术、selenium的基本使用,selenium与WebDriver的安装

当爬取网页数据时,有些网页页面是通过JavaScript动态加载的,这就需要使用一些特殊的技术来处理这种情况。其中一个常用的技术就是使用Selenium来模拟浏览器行为来爬取动态网页。

2023-12-24 18:28:51 1413

原创 Java中的for循环语句(一课一得)

循环条件:判断循环是否继续执行的条件表达式,只有当条件为真时,才会执行循环体代码。循环嵌套时,循环终止条件的判断要慎重,否则可能导致循环无法结束或出现意外的结果。增强的for循环用于遍历数组或集合中的元素,简化了遍历的代码。基本的for循环是最常见和常用的形式,可用于控制循环的次数。在循环体中不小心修改循环控制变量的值,可能导致循环逻辑错误或死循环。更新语句:在每次循环结束后执行的语句,用于更新循环控制变量的值。初始化语句:在循环开始之前执行的语句,用于初始化循环控制变量。1. 基本的for循环。

2023-12-23 18:41:35 3466

原创 Python数据分析(一课一得)中的DataFrame表格对象的运用

在Python数据分析中,DataFrame是一个重要的数据结构,它提供了一种灵活的方式来处理、操作和分析结构化数据。DataFrame可以看作是一种二维表格,类似于电子表格或关系型数据库中的表格,它具有行索引和列索引,可以存储不同类型的数据(如数值、字符串等)。可以使用describe方法来查看DataFrame的统计摘要,包括计数、均值、标准差、最小值、最大值等。

2023-12-23 14:54:08 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除