BRICS MLBD
文章平均质量分 86
个人学习记录
小石小石摩西摩西
欢迎来到我的菜园子。
展开
-
七、电影数据分析
七、电影数据分析7.1 背景介绍7.1.1实验背景电影娱乐产业越发发达,投资商希望能从电影的各种数据中找到最可能赚钱的电影有什么特点。数据介绍budget 预算genres 电影名数据homepage 网站主页idkeywords 关键字original_language 语言original_title 标题overview 概述popularity 人气popularity 电影商production_countries 电影商拍摄地release_date 发布日期原创 2021-08-18 16:05:33 · 33523 阅读 · 1 评论 -
六、二手房数据分析
六、二手房数据分析6.1 背景介绍6.1.1 实验背景随着房地产市场发展,房价越来越高。为了的到影响房价的增长因素,现在从数据角度出发,分析以下左右房价的因素。数据介绍CATE 城区bedrooms 卧室数量halls 客厅AREA 面积floor 地面高度,楼层subway 附近是否有地铁school 附近是否有学校price 价格名称DISTRICT区域6.2 载入数据6.2.1 导入支持库import mathimport numpy as npimport原创 2021-08-16 09:27:52 · 36132 阅读 · 1 评论 -
五、空气质量分析与结果展示
五、空气质量分析与结果展示5.1 实验背景近年来随着城市化和工业化的发展,城市空气质量越来越差,从中央到地方各级政府对城市空气质量也越发重视。并对全国各个城市的空气质量进行了长期的采样。下面对全国空气质量进行分析,可以得出我国城市空气质量的大概规律。数据介绍time 时间city 城市AQI 根据细颗粒物、可吸入颗粒物、二氧化硫、二氧化氮、臭氧、一氧化碳等六项参数综合得出的空气污染程度及空气质量状况的表述。PM2.5 细颗粒物又称细粒、细颗粒、PM2.5。细颗粒物指环境空气中空气动力学当量直原创 2021-08-13 16:32:31 · 35132 阅读 · 0 评论 -
四、Pandas数据清洗规整
四、Pandas数据清洗规整4.1 数据加载、储存4.1.1 从数据文件读取数据导入支持库:import numpy as npfrom pandas import Series,DataFrameimport pandas as pd从csv文件读取数据,一般方法:pd.read_csv('../data/ex1.csv',encoding='gbk')从csv文件读取数据,去掉头部:pd.read_csv('../data/ex1.csv',encoding='gbk',head原创 2021-08-10 10:18:58 · 33623 阅读 · 0 评论 -
三、图形样式、Matplotlib高级设置
三、图形样式、Matplotlib高级设置3.1 图表刻度、指示注解定制化样式3.1.1 添加图例和标题导入支持库:import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npfrom matplotlib.ticker import AutoMinorLocator,MultipleLocator,FuncFormatter设置中文显示:mpl.rcParams["font.sans-serif"]=原创 2021-08-10 10:15:00 · 33819 阅读 · 0 评论 -
二、Matplotlib绘制统计图形详解
二、Matplotlib绘制统计图形详解2.1 柱状图和条形图2.1.1 柱状图导入支持库:import matplotlib as mpl import matplotlib.pyplot as plt import numpy as np设置中文显示:mpl.rcParams["font.sans-serif"]=["SimHei"] mpl.rcParams["axes.unicode_minus"]=False 设置绘图数据:x = [1,2,3,4,5] y = [6,原创 2021-07-28 14:11:50 · 34863 阅读 · 0 评论 -
一、Matplotlib基础-图表组成元素
一、Matplotlib基础-图表组成元素jupyter路径介绍code:代码位置data:数据存放位置1.1 plot()函数和scatter()函数1.1.1 函数plot()——展现变量的趋势变化导入支持库:import matplotlib.pyplot as pltimport numpy as np数据准备:x = np.linspace(0.05,10,1000)y = np.cos(x)选取绘图函数,调整参数:plt.plot(x,y,ls='-',lw=2原创 2021-07-26 15:22:58 · 34605 阅读 · 7 评论 -
五、Scikit-learn的应用-为CHarityML寻找捐献者
五、Scikit-learn的应用-为CHarityML寻找捐献者5.1 实验介绍实验准备请到05 finding_donors文件目录下开始实验。实验背景在这个项目中,您将使用1994年美国人口普查收集的数据,选用几个监督学习算法以准确地建模被调查者的收入。然后,您将根据初步结果从中选择出最佳的候选算法,并进一步优化该算法以最好地建模这些数据。你的目标是建立一个能够准确地预测被调查者年收入是否超过50000美元的模型。这种类型的任务会出现在那些依赖于捐款而存在的非营利性组织。了解人群的收入情况可原创 2021-07-25 10:30:31 · 34798 阅读 · 2 评论 -
四、Scikit-learn的应用(创建用户分类)
四、Scikit-learn的应用(创建用户分类)4.1 实验介绍实验准备请到04 finding_segments文件目录下开始实验。项目背景在这个项目中,你将分析一个数据集的内在结构,这个数据集包含很多客户针对不同类型产品的年度采购额(用金额表示)。这个项目的任务之一是如何最好地描述一个批发商不同种类顾客之间的差异。这样做将能够使得批发商能够更好的组织他们的物流服务以满足每个客户的需求。这个项目的数据集能够在UCI机器学习信息库中找到.因为这个项目的目的,分析将不会包括’Channel’和’原创 2021-07-23 10:59:34 · 36034 阅读 · 1 评论 -
三、Scikit-learn机器学习框架
三、Scikit-learn机器学习框架3.1 Scikit-learn介绍Scikit-learn介绍对Python语言有所了解的科研人员可能都知道SciPy——一个开源的基于Python的科学计算工具包。基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思。而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn。Scikit-learn项目最早由数据科学家 David Cournape原创 2021-07-22 11:11:07 · 36369 阅读 · 1 评论 -
Numpy基础
数据分析利器:NumPyPython之所以强大,是因为它提供了很多高效便捷的数据分析工具包,数据分析中常用的3个利器——NumPy、pandas与Matplotlib库。其中,NumPy库和pandas库主要用于处理一维及二维的表格数据,而Matplotlib库是数据可视化的利器。NumPyNumPy库的名字由“Numerical Python”缩写而来。NumPy库是pandas库的基础...原创 2021-07-13 09:05:00 · 7403 阅读 · 0 评论 -
Linux基础 Day02
Linux第二天解决遗留问题:gcc编译器编译的时候,由于版本的不同,使用 gcc *.c 编译源文件。删除变量$unset 变量名示例:$unset test_var查找命令$whereis 命令名称示例:$whereis man#which多用于查找安装的软件路径$which gcc 【mysql】#多用于查找文件find 路径 -name 文件名$find /usr/local/ -name gccLinux目录结构目录的使用Linux使原创 2021-07-18 12:00:51 · 33838 阅读 · 0 评论 -
Linux基础 Day01
Linux培训第一天shell命令:查看命令的帮助文档$man <command>示例:$man ls退出man命令窗口q键查看shell命令的参数$ <command_name> --help示例:$ls --helpLinux系统中只有文件Linux桌面版系统,可以开6个终端模拟器,使用快捷键【Ctrl】+【Alt】+【Fn】(n = 1~6)CentOS 终端默认使用的shell是 bash shell操作技巧,快捷键的使用原创 2021-07-18 12:00:12 · 5758 阅读 · 0 评论 -
Python基础
Python基础知识Python3 基础语法注释给人看的,通常是对代码的描述信息,不执行。1.单行注释以# 开头,快捷键:ctrl + /# 第一个注释print ("Hello, Python!") # 第二个注释2.多行注释可以用三引号开头,三引号结尾。''' '''或""" """# 第一个注释# 第二个注释 '''第三注释第四注释''' """第五注释...原创 2021-07-13 09:07:00 · 5983 阅读 · 0 评论 -
Pandas基础
pandaspandas简介Python Data Analysis Librarypandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型结构化数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。Python长期以来一直非常适合数据整理和准备,你很快就会发现,它是使P...原创 2021-07-12 09:16:00 · 6356 阅读 · 0 评论 -
6.搭建sqoop
搭建sqoop搭建sqoop1.解压安装包2.添加环境变量3.添加mysql驱动4.添加配置文件5.查看是否配置成功1.解压安装包在/opt目录下新建sqoop文件夹,上传sqoop-1.4.7.bin__hadoop-2.6.0.tar.gztar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz进行重命名mv sqoop-1.4.7...原创 2020-09-16 10:07:00 · 81 阅读 · 0 评论 -
5.搭建HBase
搭建HBase搭建HBase1.解压HBase安装包2.配置环境变量3.修改HBase配置信息4.文件分发5.启动HBase1.解压HBase安装包在/opt目录下新建hbase,将hbase-1.2.6-bin.tar.gz上传到该文件夹下tar -xvf hbase-1.2.6-bin.tar.gz2.配置环境变量在/etc/profile中添加如下配置#hba...原创 2020-09-16 10:06:00 · 96 阅读 · 0 评论 -
二、Hive数据仓库技术
Hive数据仓库技术Hive数据仓库技术Hive 简介Hive与传统关系型数据库Hive 架构设计Hive数据单元数据存储模型安装配置 Hive 环境Metastore的三种运行模式Metastore 配置属性搭建Hive环境内置derby版外置MySQL版Hive数据库及表操作基本数据类型复杂数据类型Hive DDL 操作数据库操作创建表语法托管表(内部表)其他常用 DDL 操作Hive ...原创 2020-09-16 22:59:00 · 623 阅读 · 0 评论 -
一、Apache Hadoop
Apache HadoopApache Hadoop大数据时代的发展趋势一数据将成为资产什么是大数据?大数据时代的关键技术Hadoop 概述和介绍Hadoop的生态圈Hadoop 发行版Hadoop 优缺点HDFS 分布式文件系统HDFS 体系结构NameNode元数据管理机制Hadoop环境搭建所需软件列表安装 MobaXterm 终端模拟器环境准备安装 JDK 与 Hadoop配置 Ha...原创 2020-09-16 22:58:00 · 384 阅读 · 0 评论 -
三、Sqoop 数据迁移工具
Sqoop 数据迁移工具由于传统数据库的成熟以及广泛的应用,目前大多数场景下数据管理与分析系统都是建立在关系型数据库基础之上的,数据的采集、加工、处理都是在关系型数据库总完成的。要实现大数据的处理与分析还需要把数据从关系型数据库导入 Hadoop 平台,利用 Hadoop 平台强大的数据处理能力来分析数据。处理完成后的数据再把结果导入关系型数据库中,以方便数据的决策利用。这就设计到数据的互导问...原创 2020-09-16 23:01:00 · 255 阅读 · 0 评论 -
2.1Python基础知识
2.1.1 标识符 用来标识某个实体的符号。在编程中通常指给变量、常量、函数、语句块的命名。标识符命名注意事项: 1)标识符的第一个字符必须是26个字母(大小写不限定)或下划线(键盘上加号左边的符号)>>> 4_zhou_4 = 11 File "<ipython-input-1-b78d82cbb773>", line 1 4_zhou_4 = ...原创 2020-09-20 14:56:00 · 74 阅读 · 0 评论 -
四、Hadoop HA 集群搭建
Hadoop HA 集群搭建Hadoop HA 集群搭建Hadoop 完全分布式环境搭建集群规划集群部署前提Hadoop伪分布式环境搭建配置IP映射安装 Java 与 Hadoop配置 Hadoop配置 MapReduce 与 YARN集群配置配置基本参数配置 SSH 免密登录格式化 HDFS启动 Hadoop 服务测试测试访问Hadoop HA 高可用高可用简介HDFS 高可用** **故...原创 2020-09-16 23:02:00 · 178 阅读 · 0 评论 -
五、MySQL安装
MySQL安装MySQL安装使用 yum 在线安装 MySQL$ yum -y install wget # 安装 Linux 下载工具 wget$ cd /usr/local $ wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm # 下载 MySQL57 源$...原创 2020-09-16 23:03:00 · 77 阅读 · 0 评论 -
2.搭建Flume
搭建Flume搭建Flume1.下载解压(官网)2.配置flume3.配置环境变量4.进行文件传输配置slave5.Flume部署示例(CSDN)4.1 Avro(以下还没操作修改)4.2 Spool4.3 其它1.下载解压(官网)在/opt目录下新建目录flume将下载好的apache-flume-1.9.0-bin.tar.gz,利用Xftp6上传到/opt/flume目...原创 2020-09-16 10:00:00 · 103 阅读 · 0 评论 -
1.搭建hadoop
搭建Hadoop1.平台基本介绍Hadoop的核心由3个部分组成:HDFS: Hadoop Distributed File System,分布式文件系统,hdfs还可以再细分为NameNode、SecondaryNameNode、DataNode。YARN: Yet Another Resource Negotiator,资源管理调度系统Mapreduce:分布式运算框架学长分享H...原创 2020-08-31 23:37:00 · 108 阅读 · 0 评论 -
4.搭建Hive2.X
搭建Hive2.X搭建Hive2.XHive1.安装部署3.运行Hive4.测试Hive5.进行文件分发HiveHive 是基于 Hadoop 的⼀个数据仓库,可以将结构化的数据⽂件映射为⼀张表,并提供类 sql 查询功 能,Hive 底层将 sql 语句转化为 MapReduce 任务运⾏。1.Hive官⽹地址 http://hive.apache.org/ 2.⽂档查看地址 ht...原创 2020-09-16 10:03:00 · 135 阅读 · 0 评论 -
3.搭建Zookeeper
搭建Zookeeper搭建Zookeeper介绍Zookeeper作用:注意:1.集群规划2.解压安装3.配置zoo.cfg文件4.将配置好的文件进行文件分发5.进行启动测试介绍Zookeeper作用: Apache ZooKeeper是一种高可用性服务,用于维护少量协调数据,通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能:...原创 2020-09-16 10:02:00 · 60 阅读 · 0 评论 -
Matplotlib之Python可视化
PYTHON可视化学习可视化的思路了解统计学中的基本图形的特征,图形类型。图形是由那些要素构成的,哪种类型的图形适合展示哪种类型的数据。学习绘制图形的API,熟悉各API的参数。图形颜色和线条美化,选择适合所分析行业的颜色和线条,例如分析的行业是金融业就选择黑灰商务色,看起来严谨认真的线条和字体;分析的是教育行业就选择鲜活可爱的颜色主题和线条字体。这点需要对行业风格有认知,长期积累经验...原创 2021-07-14 15:29:00 · 6727 阅读 · 0 评论 -
一、Hadoop课程
Hadoop课程2.1 初始设置初始环境这里平台已设置好,同学们需要了解一下如何设置。1. 修改主机名,以master节点为例[ec2-user@ip-172-31-32-47 ~]$ sudo vi /etc/hostname #在里面删去所有内容,在首行添加 master作为自己新的主机名。#重启虚拟机,使配置生效[ec2-user@ip-172-31-32-47 ~]$ sudo reboot2. 修改hosts映射,以master节点为例#查看所有节点的IP[ec2-user@原创 2021-07-18 11:58:23 · 6381 阅读 · 1 评论