- 博客(4)
- 收藏
- 关注
原创 Hadoop中Hive数据仓库的核心技术与应用
接着,通过编写HiveQL查询语句,我们可以方便地分析出哪些商品的销售量最高,或者哪些用户最活跃等信息。Hive作为一个基于Hadoop的数据仓库工具,因其高效的数据处理能力和良好的扩展性而受到广泛关注。:使用SELECT语句进行数据查询,支持加入(JOIN)、分组(GROUP BY)等多种SQL查询功能。:负责存储Hive中数据的结构信息,如表名、列信息、分区信息等。:根据数据特点选择合适的文件格式(如Parquet、ORC),并适时调整Hive配置参数以优化执行计划。
2024-06-12 19:06:54
1185
2
原创 网络爬虫的爬取动态网页的技术、selenium的基本使用,selenium与WebDriver的安装
当爬取网页数据时,有些网页页面是通过JavaScript动态加载的,这就需要使用一些特殊的技术来处理这种情况。其中一个常用的技术就是使用Selenium来模拟浏览器行为来爬取动态网页。
2023-12-24 18:28:51
1413
原创 Java中的for循环语句(一课一得)
循环条件:判断循环是否继续执行的条件表达式,只有当条件为真时,才会执行循环体代码。循环嵌套时,循环终止条件的判断要慎重,否则可能导致循环无法结束或出现意外的结果。增强的for循环用于遍历数组或集合中的元素,简化了遍历的代码。基本的for循环是最常见和常用的形式,可用于控制循环的次数。在循环体中不小心修改循环控制变量的值,可能导致循环逻辑错误或死循环。更新语句:在每次循环结束后执行的语句,用于更新循环控制变量的值。初始化语句:在循环开始之前执行的语句,用于初始化循环控制变量。1. 基本的for循环。
2023-12-23 18:41:35
3466
原创 Python数据分析(一课一得)中的DataFrame表格对象的运用
在Python数据分析中,DataFrame是一个重要的数据结构,它提供了一种灵活的方式来处理、操作和分析结构化数据。DataFrame可以看作是一种二维表格,类似于电子表格或关系型数据库中的表格,它具有行索引和列索引,可以存储不同类型的数据(如数值、字符串等)。可以使用describe方法来查看DataFrame的统计摘要,包括计数、均值、标准差、最小值、最大值等。
2023-12-23 14:54:08
958
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人