自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 mapreduce

1.mapreudce流程:官网: (1)整体流程 (input) <k1, v1> -> map -> <k2, v2> -> reduce -> <k3, v3> (output) (2)解释: 1)整个过程 跟 kv 数据类型=》 mr 2)kv: 1.The key and value classes have t...

2022-05-18 09:37:12 117

原创 大数据处理

1.大数据处理: (1)input (2)处理 (3)outputeg:hdfsapi 完成词频统计 (1)input: 一个文件或者 一批文件 (2)处理: 1)读取文件内容 ,一行一行的 ,按照某个指定分割符 进行拆分 =》 一堆单词 a,a,a,a,b,b => , => a,a,a,a,b,b 2)给每个单词记录次数 a,a,a,a,b,b =...

2022-05-18 09:36:04 552

原创 完全分布式的搭建(三台)

1.集群划分? hdfs: bigdata22 namenode datanode bigdata23 datanode bigdata24 snn datanode yarn: bigdata22 nodemanager big...

2022-05-17 20:05:13 322

原创 伪分布式搭建

(1)配置模板机: 1)hostname =》 ip 192.168.10.20 bigdata20 192.168.10.21 bigdata21 192.168.10.22 bigdata22 192.168.10.23 bigdata23 192.168.10.24 bigdata24 192.168.10.25 bigdata25...

2022-05-17 20:03:57 123

原创 Hadoop

官网: hadoop.apache.org project.apache.org源码地址: https://github.com/apache/hadoop https://github.com/apache/project 1.hadoop:分布式文件存储系统 广义:hadoop为主的生态圈(sqoophive、spark、flink、cdh) 狭义:hadoop本身2.hadoop组成: hdfs 数据存储 hbase、kudu...

2022-05-17 20:01:13 150

原创 Shell

一、shell概述: 什么是shell? (1)一个编程语言; (2)可执行的文件 (3)文件内容、linux命令组成二、shell语法入门 1.写一个shell命令: (1)文件名.sh结尾 (2)第一行:#!/bin/bash 2.权限: (1)无权限:sh 文件名.sh [root@hadoop100 shell]# sh ./wc.sh ...

2022-04-15 09:45:16 652

原创 数据探索+ 数据预处理

数据探索: 1.统计量分析 : 1.集中趋势的度量: 1.均值、中位数、众数 2.离散趋势的度量: 极值() 极差 标准差、方差 四分位数间距 2.相关性分析: 通过散点图 获取 相关系数数据预处理: 补充: 数据透视表 也可以对数据 进行分析 【聚合统计 】 group b...

2022-04-12 15:58:17 92

原创 linux

一、linux概述: 1.为什么使用linux? java、前端、大数据、算法->app 服务器->linux 2.概述: 文件操作系统(层级式的文件操作系统、最顶层目录/) 3.版本: 广义:ubuntu、小红帽、centos、debian...基于linux内核进行开发 狭义:centos(6.x、7.x现用7.5) 4.学习: (1)环境准备:虚拟化软件VMware(装入不同镜像...

2022-04-12 15:57:36 560

原创 matplotlib基础知识

matplotlib: (1)官网:https://matplotlib.org/ (2)概述: Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python. Matplotlib就是一个数据可视化的东西 和大数据数据可视化有区别 【Matplotlib他是一个 数据...

2022-04-11 14:11:26 461

原创 pandas基础知识

1.pandas : (1)官网:https://pandas.pydata.org/ (2)概述: pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, 【pandas就是一个数据分析的工具】 (3)编程模型【数据类型】 1.Series 2.DataFrame2.S...

2022-04-11 14:10:00 84

原创 numpy

1.Numpy: (1)官网 https://numpy.org/ (1) what is numpy? The fundamental package for scientific computing with Python (2)multidimensional array object 【编程模型】 1.arrays and matrices [数组和矩阵] 2.可以用来 数组操作、矩阵操作、线下代数、sort、r...

2022-04-11 14:08:57 814

原创 机器学习基础知识

机器学习: 1.概念:Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas2.机器学习里面的常用术语 : (1)数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽...

2022-04-11 14:07:11 1281

原创 爬虫框架--scrapy

1.An open source and collaborative framework for extracting the data you need from websites.In a fast, simple, yet extensible way. 1.开源的爬虫框架 2.快速、简单、高效的方式2.安装部署3.基本使用 (1)创建一个项目:scrapy startproject test_scrapy (2)项目目录: scra...

2022-04-06 15:56:39 611

原创 爬虫基础内容及技术

1.爬虫:通过代码、模拟浏览器上网,然后抓取数据的过程(数据解析)2.爬虫是否合法? 1.法律允许 2.有法律风险的3.统一规定? 【法律界限】 robots.txt协议4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 2.获取一整张页面 部分数据 【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】5.爬虫的规则: (1)反爬策略: 门户网站 通过 技术手段 防止爬虫程序对页面爬取数据 (...

2022-04-06 15:55:14 209

原创 python常用函数及用法

1.函数: python中函数与方法区别不大(scala中有区别) (1)内置函数 (常用类的api:数学相关的在math 包下) print(abs(-10)) #绝对值 print(max(1, 2, 3, 4, 5)) print(min(1, 2, 3, 4)) print(sum([1, 2, 3])) import math print(math.sqrt(16)) print(math.ceil(3.2)) print(......

2022-04-06 15:50:17 2286

原创 python语法

一、基本数据类型: 1.数值型:(1) int->整型 n1 = 10 print(n1) print(type(n1)) (2) float->浮点型(小数)n2 = 10.1 print(n2) print(type(n2) (3) complex->复数 2.字符串:str->...

2022-04-02 16:09:44 935

原创 Python入门

一、语言特点: 1.开发简洁 2.既支持面向过程、也支持面向对象编程 3.可移植性 4.不需要编译成二进制代码 5.可以直接从源代码运行程序二、使用场景: 1.数据分析:numpy、pandas 2.web开发 3.游戏开发 4.AI(机器学习、深度学习) 5.爬虫三、安装方式与开发环境: 1.安装: (1) python原生的安装包(下载地址:www.python.org) (2) Anaconda中...

2022-04-02 16:00:49 945

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除