读书灯-CSDN博客

原创大数据入门之词频统计简易实现思路

在大数据中，MapReduce无疑是一个绕不开的课题，Hadoop也好，Spark也罢，市面上主流的大数据技术栈大多会涉及到MapReduce。词频统计就是统计单词在文本中出现的频率，在整个统计过程中会涉及到单词的切分、映射、聚合等流程，整个流程跟MapReduce的执行流程几乎一致。本文将以图片的形式简单概述词频统计案例实现思路。词频统计通用的实现思路大致为：单词切分——实现单词与出现次数的映射——单词分组（可以用判断来实现同一单词的分组）——单词的聚合（对同一单词进行出现次数的累加）

2024-01-08 15:36:52 606 1

原创 Hive数据导入MySQL遇到中文乱码问题的解决方案

发现character_set_database和character_set_server都是默认latin1的编码方式，而我们远程连接的数据库使用的是utf-8的编码方式，因此我们需要对database的编码方式进行修改。3.打开远程主机中的MySQL配置文件“my.cnf”(我们的my.cnf文件存放在Linux的etc目录下，具体文件在哪里根据实际情况查找)，然后把从my.ini中复制的有关编码方式的语句全部粘贴到my.cnf中。1.找到本地的MySQL配置文件：my.ini。

2023-12-14 19:37:41 740 1

原创 Python+大数据学习笔记|Hadoop理论篇01

Apache Hadoop软件库是一个用Java语言实现的开源软件框架，它允许使用简单的编程模型在计算机集群之间分布式处理大型数据集，是一个存储和计算大规模数据的软件平台。由于Hadoop是使用JAVA语言编写的开源软件框架，所以在Linux上运行Hadoop需要下载JAVA。

2023-11-24 21:38:40 887 1

原创 Python+大数据学习笔记|Day 9:五大容器与函数进阶

我们已经学过五个用来存储多个元素的数据容器（列表、元祖、字符串、集合与字典），这五个容器的共同点是它们都能存储多个元素，都可以用for循环遍历容器内的元素。关键字参数不需要形参与实参顺序一致，位置参数必须形参与实参顺序一致，如果关键字参数在传参时放在形参前会影响到位置参数，因此位置参数与关键字参数混用时，关键字参数需要放在后面。在存储元素类型上，字符串只能存储字符串类型的元素，集合与字典的key值都只能够存储不可变数据类型，而五大容器中的不可变数据类型仅有元祖和字符串。

2023-10-19 21:21:35 107 1

原创 Python+大数据学习笔记|Day 8:数据容器：序列、集合与字典

集合名 = set()注意: 不要使用空的{}来进行定义，因为它代表空的字典集合名 = {元素1,元素2,元素3,...}注意: 集合中不要嵌套可变类型# 定义空集合# 注意: 空集合不能是{}代表,因为它代表空字典!!!test = {}# 定义非空集合# 注意: 集合内不能存储可变类型(列表,集合等)字典名 = {} 或者字典名 = dict()字典名 = {k1:v1 , k2:v2 , ...}注意: 字典的每个元素是一个键值对value = 字典名[key]

2023-10-17 21:01:22 109

原创 Python+大数据学习笔记|Day7：数据容器：元祖和字符串

元组名 = () 或者元组名 = tuple()元组名 = (元素1,元素2,元素3,...)tips:定义只有一个元素的元祖时，需要在该元素后加逗号例：# 定义空元祖t1 = ()# 定义非空元祖t1 = ('你', 9, '他', '啊')定义元祖时，为了和int、字符串等类型进行区分，定义一个只有一个元素的的元祖我们需要在第一个元素后添加逗号。比如下面这串代码在定义元祖t2时就没有加逗号，当我们用type()函数查看其类型会发现t2的类型是字符串（str），而非元祖。

2023-10-07 20:03:56 171 1

原创 Python+大数据学习笔记|Day 6:数据容器：列表

如果一个组只有一个人，那么我们要存储这个人的名字只需要一个字符串就能搞定，但是一个小组有5个人呢？name_1 = "周芷若"name_2 = "赵敏"name_3 = "小昭"name_4 = "殷离"name_5 = "朱九真"像上面一样一个个存储效率太低，我们可以用列表来进行存储。name = ["周芷若", "赵敏", "小昭", "殷离", "朱九真"]如果是在一个班级里我们有两个小组，我们需要把两个小组的组员姓名都存储到班级里，那么我们可以使用嵌套的方式，来进行存储。

2023-10-04 21:57:38 142 1

原创 Python+大数据学习笔记|Day 5:函数

假设我们有一串代码实现了某个特定功能，当我们需要将该功能运用到其他地方时，我们就需要找到该代码将其复制一遍，这样既不能使代码更简洁，又不够高效，为了更高效利用具有特定功能的代码段，我们可以使用函数来解决。当我们在函数中写好具有某些特定功能的代码段后，我们可以在别的地方直接将该函数调用过来帮助我们实现相同功能。例如，下面代码就定义了一个可以实现a+b的结果函数，当我们想计算8+9的结果时，就可以直接调用该函数输出其运算结果。# 定义一个可以计算a+b的结果的函数c = a + breturn c。

2023-10-03 22:35:57 97

原创 Python+大数据学习笔记|Day 4:for与while循环语句

从1到10，我们可以定义一个初始变量i，赋值1，让i

2023-10-02 22:55:16 119 1

原创 Python+大数据学习笔记|Day 3: Python中的输入与判断

变量名 = 布尔类型字面量得到布尔类型的方式除了直接赋值，我们还可以用比较运算符得到，比如a>b，如果a是大于b的，那么得到的布尔值就是True，反之即为False。# 定义一个变量，直接赋值，输出布尔值a = Trueprint(a)# 用比较运算符得到布尔值print(9 == 8) # 输出：Falseprint(9!= 8) # 输出：Trueprint(9 >= 8) # 输出：Trueprint(9 > 8) # 输出：Trueprint(9 < 8) # 输出：False。

2023-10-01 22:47:00 405

原创 Python+大数据学习笔记|Day 2:初识Python

变量名 = 变量值注意：这里“=”的意思是把“=”后面的值赋给前面的变量i = 10-2print(i)这串代码中输出的i最终结果必然是8,由此可知变量是可以用于存储运算结果的。那么变量在实际使用中有什么好处？print("这是一个人")print("这是一个人")print("这是一个人")print("这是一个人")print("这是一个人")print("这是一个人")a = "这是一个人"print(a)print(a)print(a)print(a)

2023-09-30 23:58:31 247

原创 Python+大数据学习笔记|Day 1:学习前的预备知识

通过计算机的自我介绍，我们对未来的合作伙伴已经有了一个初步了解了，我们知道了计算机要有操作系统可以承上启下，串联起硬件和其他软件，有了软件我们就能通过软件跟计算机交流，让计算机帮我们处理一些事情，可是没有软件我们应该怎么跟计算机沟通呢？学习大数据的过程是漫长的，我们要一步步打造自己的技能树，这个过程中我们可以从操作系统Linux开始学习，掌握至少一门编程语言，学习好大数据框架，积累实战经验。正所谓“工欲善其事，必先利其器”，当我们决定学大数据后，开发工具的安装是必不可少的。

2023-09-29 22:27:11 237 2