阿洋太爱大数据-CSDN博客

原创数据挖掘部分整理（到关联规则挖掘）

属性类型：标称属性：值是一些符号或者事务的名称，每个值代表某种类别、编码或者状态，因此标称属性又被看做是分类的，值是无意义的序，并且不是定量的，因此找平均值和中位数是没有意义的，比如：hair_color（头发的颜色）就是。二元属性：是一种标称属性，只有两个类别状态：0或者1,0通常表示该属性不出现，而1表示出现。二元属性也有对称的二元属性和非对称的二元属性，如果状态的结果不是同等重要的，则称为非对称的二元属性。对称的二元属性非对称的二元属性序数属性：其可能的值之间具有有意义的

2022-01-10 20:26:53 3222 1

原创数据挖掘考试（大纲）

数据挖掘过程？数据清理（消除噪声和删除不一致数据）数据集成（多种数据源可以组合在一起）数据选择（从数据库中提取与分析任务相关的数据）数据变换（通过汇总与聚集操作，把数据变换和统一成适合挖掘的形式）数据挖掘（基本步骤，使用智能方法提取智能模式）模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）数据挖掘常用模式？概念/类描述：特性化和区分关联分析（挖掘频繁模式、关联和相关）分类和预测聚类分析离群.

2022-01-10 20:22:11 3057

原创相似度与距离

邻近性：相似性和相异性统称为邻近性属性类型：标称属性：值是一些符号或者事务的名称，每个值代表某种类别、编码或者状态，因此标称属性又被看做是分类的，值是无意义的序，并且不是定量的，因此找平均值和中位数是没有意义的，比如：hair_color（头发的颜色）就是。二元属性：是一种标称属性，只有两个类别状态：0或者1,0通常表示该属性不出现，而1表示出现。二元属性也有对称的二元属性和非对称的二元属性，如果状态的结果不是同等重要的，则称为非对称的二元属性。序数属性：其可能的值之间具有有意义的量，例如：

2022-01-04 14:33:45 3500

原创数据预处理

数据质量的要素：准确性、完整性、一致性、时效性、可信性、可解释性。数据清理：填写缺失值，光滑噪声数据，识别或删除离群点，并解决不一致性来“清理数据”数据集成:在分析中使用来自多个数据源的数据，这就涉及集成多个数据库、数据立方体或文件数据规约：得到数据集的简化表示，它小的多，但能够产生同样的（或几乎相同）分析结果。数据规约策略包括维规约和数值归约数据清理：偏差监测数据清洗工具ETL缺失值：忽视去掉有缺失值的样本或属性  较小缺失率人工补全缺失值重新...

2021-11-28 22:15:10 1173 1

原创区块链的密码算法

区块链系统包含了计算机科学过去几十年的成果：计算机网络P2P、算法、数据库、分布式系统、计算机密码学等密码学是区块链系统安全性保障的基础技术，形象地称为区块链的骨骼哈希算法■哈希算法(Hash、散列、杂凑，消息摘要，音译为哈希，原意是古法语“斧子”，后引申为“剁碎的肉末”)■哈希算法:把任意长度的输入做复杂的变换后，输出固定长度的输出，这个输出称为输入的哈希值而相应的变换方法称为哈希算法，在不引起混淆的情况下，哈希算法也称哈希函数■哈希算法的输出长度和输入长度无关■哈希这种转

2021-11-20 19:59:02 17769

原创密码朋克和加密朋克

密码朋克：“密码朋克”一词的首次出现，是在1993年埃里克·休斯出版发《密码朋克宣言》上。但实际上，早在20 世纪 80 年代，“密码朋克”就作为一种技术潮流，在旧金山湾区悄然兴起了。这个群体由一些“天才极客”和IT精英们组成，有来自英特尔的科学家Tim May、维基解密的创始人Tim May、万维网的发明者Tim Berners-Lee，Facebook 的创始人之一Sean Parker，当然还包括比特币之父中本聪致力于的事...

2021-11-16 22:26:56 12040

原创集群计算——Spark-Spark Core 、Spark Streaming、Spark SQL、MLlib、Spark集群管理器

Spark发源于美国美国加州伯克利分校AMPLab的大数据分析平台，它立足于于内存计算，从多迭代批量处理出发，兼顾数据仓库、流处理和图计算等多种计算范式，是大数据系统邻域的全栈计算平台。Spark当下成为Apache基金会的顶级开源项目。 Spark扩展了MapReduce计算模型，并且高效的支持更多的计算模式。由于速度很快，这意味着可以交互式的数据操作（否则每次操作就需要等待数分钟甚至数个小时）。Spark基于内存计算，提高了在大数据环境下处理的实时性，因而更能体现...

2021-11-14 20:32:24 2082

原创文档数据库（nosql）学习笔记（3）--MongoDB数据存储

MongoDB数据存储模型逻辑架构中的关键概念有文档、集合、数据库，与关系型数据库MySQL中的行、表、数据库对应：1.数据库（Database）在将文档加人集合之前,MongoDB需要将集合加到数据库中，一个MongoDB主机上通常会有多个数据库，它们之间可能互不相关。一个数据库拥有一个许可，并且在硬盘上用特定的文件存储。数据库是用名称作为唯一标识的，可以用几乎任何UTF-8字符来命名.数据库名称要求必须是小写字母，名称字符长度不能多于64位,不得包含空格、...

2021-11-03 22:21:30 372

原创文档数据库（nosql）学习笔记（2）--存储架构

JSON与BSONJSON中国 | JSON中文网 JSON基于JavaScript语言，是一种轻量级的数据交换格式，是Standard ECMA-262 3rd Edition- December 1999的一个子集，也即 JavaScript语法的一个子集。它是一种类似于C语言结构体的名称、值对表示方法，支持内娥的文档对象和数组对象。数据内容以可嵌套的KV文本形式存储，数据的结构和内容一目了然。 JSON 采用的是完全独立于编程语言的文本格式来存储和表示数据。...

2021-11-03 20:59:04 3126 1

原创文档数据库（nosql）学习笔记（1）--简述

文档数据库技术： 1.文档数据库是Nosql数据库家族里面最像关系数据库的Nosql数据库。 2.文档是处理信息的基本单位 3.文档数据库中采用BSON,JSON等格式储存，可方便地存储树形结构数据，支持多种索引类型。 4.拥有卓越的读写性能，并具有高可用副本集合可扩展分片集群技术，先天支持大数据的存储与管理，具有高扩展性和高可伸缩性。 5.文档数据库广泛应用于大数据存储与处理场景，如：日志数据存储、订单数据存储等；以及缓存数据存储、运维...

2021-11-03 16:56:48 2069

原创 Neo4j学习笔记（1）节点与标签、merge子句

节点名与标签：官方文档:A label is a named graph construct that is used to group nodes into sets; all nodes labeled with the same label belongs to the same set。标签是用于将节点分组到集合中的命名图构造；使用相同标签标记的所有节点都属于同一集合Neo4j中的节点标签，等同于关系数据库中的table表名，或者说是一个类别。但是跟table不同的是，这里节

2021-11-03 16:06:23 3343 1

原创区块链学习笔记（3）--交易机制与双花

比特币的交易机制如何交易:一位所有者(A)利用他的私钥对前一次交易T1和下一位所有者(B)的地址签署一个随机散列的数字签名，A将此数据签名制作为交易单T2，并将交易单T2广播全网，电子货币就发送给了下一位所有者■要点:1.交易发起者的私钥:私钥为个人所知，他人无从知晓2.前一次交易:前一次交易数据说明了该次交易的货币的来源3.下一位所有者的地址:即交易接收方的地址，此数据说明了当前交易的目标是谁4.数字签名:发起方将前一次交易数据和接收方公钥连接起来并对其求Hash值x ,再利用自

2021-11-02 21:32:19 2712

原创区块链学习笔记（2）难度整定，区块形成，区块体，Merkle树，Merkle Proof默克尔证明

难度的调整是在每个完整节点中独立自动发生的。每2016个区块，所有节点都会按统的公式自动调整难度，这个公式是由最新2016个区块的花要时长与期望时长(期望时长为20160分钟，即两周，是按每10分钟一个区块的产生速率计算出的总时长)比较得出的，根据实际时长与期望时长的比值，进行相应调整(或变难或变易)。即如果区块产生的速率比10分钟快则增加难度，比10分钟慢则降低难度公式总结为:■新难度值=当前难度值x(20160分钟/最近的2016个区块的实际出块时间)■nextdiffic...

2021-11-02 20:55:27 12046

原创 MapReduce学习笔记，理解学习Hadoop的MapReduce计算系统

MapReduce概述： MapReduce最早是在Google的论文中提出的，但是对应的代码并没有开源。从2004年Google公开发布MapReduce论文到2012为止，MapReduce已经成长为被广泛采用的分布式数据处理的业界标准。 MapReduce是一种思想，总结也就是：“分而治之，迭代汇总”MapReduce简介： Hadoop MapReduce将作业分成一系列运行在分布式集群中的map任务和reduce任务。每个任务都工作在指定的小的数据...

2021-10-27 20:16:58 2487 1

原创运行MapReduce自带的Wordcount程序（伪分布）

1、先找到examples例子：hadoop-mapreduce-examples-3.1.3.jar$ cd /usr/local/hadoop/share/hadoop/mapreduce$ ls之后会用到这里的这个jar：hadoop-mapreduce-examples-3.1.3.jar2、创建两个后面所需的数据目录：$ cd /usr/local/hadoop$ ./bin/hdfs dfs -mkdir -p /data/wordcoun..

2021-10-21 22:08:51 663

原创在进行HDFS实践时遇到的问题：

1.目录操作时报错：报错结果：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable解决办法：如何解决WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..._涛..

2021-10-08 20:57:23 1002

原创 HDFS编程实践（Hadoop3.3.1）

$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh我们是在Hadoop伪分布式下去进行HDFS的编程实践准备工作：vm15.5hadoop3.3.1eclipse-java-2021-09-R-linux-gtk-x86_64参考：林子雨：HDFS编程实践（Hadoop3.1.3）_厦大数据库实验室博客 (xmu.edu.cn)他使用的是Hadoop3.1.3版本的，过程可能会遇到的坑将在另一篇文章中总结开始在HDFS编程实.

2021-10-08 20:53:20 2322 2

原创华为主营业务

华为主营业务：华为是全球领先的ICT（信息与通讯）基础设施和智能终端供应商，主营业务为：通信网络、IT、智能终端和云服务。华为技术有限公司(简称华为)是中国一家从事信息与通信解决方案的供应商。华为于1987年注册成立，业务范围涉及电信网络、企业网络、消费者和云计算。其电信网络产品主要包括通信网络中的交换网络，传输网络，无线及有线固定接入网络和数据通信网络及无线终端产品。三个主要业务邻域：一是运营业务，如交换机，无线网络，4G，5G等包括中国移动、联通在内的全球运营商都会采购华为的通信设备

2021-10-06 20:53:01 17226

原创大数据、云计算、物联网、数据仓库、OLAP、OLTP、等大数据你必须知道并且了解的概念及相关关系，我的一些总结

三个概念Cloud computing-云计算：定义：百度百科解释：云计算（cloud computing）是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。“分布式计算：随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大.

2021-10-05 17:25:27 4336

原创大数据、云计算、物联网、数据库、数据仓库、OLAP、OLTP等学习大数据你必须了解的概念，我的学习总结

三个概念Cloud computing-云计算：定义：百度百科解释：云计算（cloud computing）是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。“分布式计算：随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大.

2021-10-05 17:17:36 3899

原创 Hadoop安装教程（3.3.1）centos7下安装

Hadoop安装教程创建hadoop用户[root@localhost luoyang]# useradd -m hadoop -s /bin/bash[root@localhost luoyang]# passwd hadoop更改用户 hadoop 的密码。新的密码：无效的密码：密码少于 8 个字符重新输入新的密码：passwd：所有的身份验证令牌已经成功更新。[root@localhost luoyang]# 按提示输入两次密码，可简单的设为 “hadoop”.

2021-09-30 23:27:04 609

原创 Hadoop安装教程（Hadoop3.3.1版本），centos7系统，避免踩坑

参考林子雨教程Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0_厦大数据库实验室博客但是版本过低，还是centos6.4的和Hadoop2.x的Hadoop安装教程Centos7JDK1.8Hadoop3.3.1(高版本的Hadoop使用JDK1.7不行)创建hadoop用户[root@localhost luoyang]# useradd -m hadoop -s /bin/bash[root@localhost luoyang]# pass.

2021-09-30 23:10:33 2425 1

原创 Hadoop全分布式集群（3.3.1版本）CentOS7

参考了林子雨的教程Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu_厦大数据库实验室博客但他使用的是ubuntu 的，在一些方面和centos还是不同Hadoop的安装同样可以参考：Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0_厦大数据库实验室博客Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)_厦大数据库实验室博客e但是centos版本的太过时了，我同样通过查询学习，整理了一

2021-09-30 22:56:25 769

weixin_46029055的博客