Sakura_❀_-CSDN博客

原创 Pyflink 的安装和 windows 开发环境配置

在分布式大数据计算引擎这个领域，现在最常用的Apache Spark 早已支持 python语言编写，而且对ML（机器学习）和DM（数据挖掘）也都有api的支持，而作为第三代计算引擎的flink，从 1.9.0 版本开始增加了对 Python 的支持（PyFlink），在Flink 1.10 中，PyFlink 添加了对 Python UDFs（自定义函数）的支持，可以在 Table API/SQL 中注册并使用自定义函数，而从Flink 1.11开始还支持在 Windows 上本地运行 PyFlin.

2021-09-18 11:43:20 2888 5

原创史上最全! 保姆级Hadoop安装教学

学大数据,不管怎么样始终都绕不开Hadoop这个黄色的小象而安装Hadoop可以说是进入大数据领域的第一步了,作为学校里大数据专业还在坚持学大数据的同学,经过这几年的学习还是积累了些许经验的,来一波保姆级Hadoop安装教学.首先默认你有些许Linux的基础,并且电脑上已经安装好vmware workstation 等类似的虚拟机安装软件 (当然你有钱买云服务器当我没说)Linux虚拟机安装下载centos镜像这里我们下载的是centos7.6的镜像传送门安装 centos虚拟机点.

2021-08-13 19:55:38 294

原创相似性度量

相似性度量在对用户的行为轨迹进行分析的时候往往要要估算用户到不同地点的相似性度量（Similarity Measurement）来分析用户在特定时间的行为习惯，这时通常采用的方法就是计算样本间的“距离”（distance）。一般采用以下几种距离。欧式距离欧式距离是最容易理解也是最简单的一种距离，就是欧式空间中两点之间的距离，我们小学的时候就应该已经学习过了计算方法比如二维平面上两点a(x1,y1)与b(x2,y2)之间的欧式距离d=(x1−x2)2+(y1−y2)2d=\sqrt{\left(

2021-07-28 09:51:08 381

原创时空大数据介绍

时空大数据的使用通过这篇论文，对于时空大数据的应用，无疑是从三个方面展开的：聚合、统计推理、建模。而按照我们项目的计划也是从这三个方面开始的，只不过是时空大数据在乎的是时空上的聚合、统计推理、建模，而我们在当初假象的时候还没注意到时间大体的使用框架如上图所示，那么具体该怎么处理数据呢时空轨迹数据的预处理时空轨迹数据预处理包括:道路匹配和轨迹压缩两个基本阶段道路匹配所谓的道路匹配就是修正定位技术精度的偏差和自身设备的可靠性所对可视化在电子地图上时，移动对象位置会出现偏离路网道路的情况的影响

2021-07-28 09:47:08 4840

原创 Flink中的时间语义和watermark

先了解两个概念首先要先知道时间语义和watermark 是什么时间语义在flink的数据处理流程中，有三个重要的时间概念，如上图所示分别是Event Time：事件创建的时间（也就是数据生成的时间）Ingestion Time：数据进入Flink的时间Processing Time：对数据执行计算的时间，为本地系统时间与机器相关在flink中有这三种时间语义，在默认情况下flink是按照Processing Time的时间来输出数据，但是往往由于分布式，并行度和网络拥挤的原因，流式数据传

2021-07-23 13:57:33 283

原创 Flink流数据api实战之实现机器学习密度峰值聚类算法

最近好几天没更新了，并没有偷懒玩哈，短学期前立的flag依旧记在心中。没更新的这几天我可是在每天加班加点的学习呢，为了今天这篇博客我这几天没少掉头发啊，呜呜呜呜！！！案例背景此案例的数据源为通过GPS定位产生的经纬度信息返回到服务器，然后通过调用特定的定位接口来变成一片特定区域的平面图的x和y坐标。同一个人收集到的坐标集加上特定的id作为标签。此案例的数据源的类型为实时流式数据，其中最大的特点就是有头无尾，只要开启收集程序，就会收集到源源不断的流式数据此案例的算法思想为：每隔极短的时间收集一次每个

2021-07-22 10:20:04 828

原创爬取网站patient like me中COVID-19论坛中的评论信息

这几天老师布置了一个小的爬虫任务对于我这种完全不会爬虫的人来说，我以为会有些难度，但应该也不会太费时间。哪知道小小的patient like me竟然让我两天没打游戏了不多说了直接开干确定思路首先先打开论坛链接COVID-19观察发现：会强制跳转到登陆界面进行登陆注册账号登陆进去看看是一个一个关于COVID-19的帖子进入帖子发现里面是关于帖子内容的评论这就是我们要爬取的内容确定思路解决登陆问题爬取论坛帖子链接爬取每个链接内的评论内容解决登陆问题简单

2021-07-16 09:12:24 534

原创 Flink流处理api之sink

概述Flink中没有类似mapreduce、spark中的foreach方法让用户进行迭代的操作，所以所有对外的输出操作都要利用sink来完成通过这样的形式来完成任务的输出操作stream.addSink(new MySink(xxxxxx));当然 Flink 官网也集成了一些sink的框架其中官方的有还有Apache Bahir 下面的kafak sink （重点）导入依赖<dependency> <groupId>org.apache.flink&

2021-07-13 16:19:09 413

原创 Flink 流处理api之transform算子

欢迎关注我的个人博客学习更多知识transform作用：将Soure数据（源数据）进行转换计算为需要的数据常用函数mapmap算子和python中的map类似，python中是把数据转换为lambda表达式中的数据，而flink中的map更广泛一些，通过new一个 Mapfunction，自定义map()方法规定转换流程，把一个数据类型（input）转换为另一个数据类型（output）格式如下dataStream.map(new Mapfunction<input,output>

2021-07-13 10:32:13 181

原创 IDEA 报错 ERROR: A JNI ERROR HAS OCCURRED, PLEASE CHECK YOUR INSTALLATION AND TRY AGAIN 怎么办？

欢迎关注我的个人博客学习更多知识今天学习flinksource的时候无意间发现了一个很离谱的错ERROR: A JNI ERROR HAS OCCURRED, PLEASE CHECK YOUR INSTALLATION AND TRY AGAIN一开始代码是可以运行的并没有这个错但是当我在maven中导入了Kafka连接器依赖后再运行就出现这种错误了啊啊啊啊啊啊啊于是我网上查了下说是java -verion 和 javac -version 版本不一致要删除电脑上的老java版本仔细一

2021-07-12 15:31:35 501

原创 Flink流处理api之source

欢迎关注我的个人博客学习更多知识flink流处理基础框架类比于storm 和 spark flink也是有执行环境下面写出最小框架public class SourceTest {public static void main(String[] args) throws Exception{// 创建执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 导入数据

2021-07-12 15:14:25 173

原创 Flink的运行架构（二）

执行图和任务链程序与数据流（DataFlow）所有的flink执行程序大体可以分为三部分：Source 负责读取数据源Transformation 利用各种算子进行处理加工Sink 负责输出在运行时，Flink 上运行的程序会被映射成“逻辑数据流”（dataflows），它包含了这三部分。每一个dataflow 以一个或多个sources 开始以一个或多个sinks 结束。dataflow 类似于任意的有向无环图（DAG）。在大部分情况下，程序中的转换运算（ transfor

2021-06-07 19:32:05 91

原创我为什么不再玩手机游戏了

最近有个朋友突然问我：怎么都没看你玩游戏了啊？手机上各种游戏也都没看你在线。听到这个问题，我竟不知道从何说起，游戏=手机游戏？???? ???? ????确实，自从上了大学后我就很少再玩手机上的游戏了，除了和朋友们聚会时有时候会下一个王者和他们打打娱乐局，或者某个喜欢的ip出了手游啦，会下一下看看里面的内容，除此之外，手机就是我平时通讯加了解咨询的工具罢了。曾几何时，在初中高中的时候，我还会偷偷拿着父母的手机沉迷于各式各样的手机游戏，而现在游戏的热爱依旧在我心中，只不过是我不再玩手机端的游戏了，进入大

2021-06-05 23:52:50 765 2

原创 Flink的运行架构（一）

学习一个组件之前，最总要的就是要了解这个组件的运行框架我们来看看flink计算引擎的运行框架Flink 运行时的组件Flink 运行时架构主要包括四个不同的组件，它们会在运行流处理应用程序时协同工作：作业管理器（JobManager）、资源管理器（ResourceManager）、任务管理器（TaskManager），以及分发器（Dispatcher）。因为Flink 是用Java 和Scala 实现的，所以所有组件都会运行在Java 虚拟机上。每个组件的职责如下：作业管理器（JobManag

2021-06-05 11:00:37 123 1

原创 MySQL权限管理及三大范式

MySQL day8权限管理和备份用户管理sql yog 可视化管理[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YC2ql30r-1622861913507)(https://s.im5i.com/2021/04/11/5RkhT.png)]SQL 命令操作用户表：mysql.user本质：读这张表进行增删改查-- 权限管理-- 创建用户CREATE USER chengyuyang IDENTIFIED BY '123456';-- 修改密码

2021-06-05 10:59:22 161

原创 MySQL事务和索引

MySQl day7MySQL 事务什么是事务要么都成功，要么都失败SQL执行 A给B转账 A1000 ---->200 B200SQL执行 B收到A的钱 A800 —>B400核心：将一组SQL放在一个批次中去执行事务原则： ACID原则原子性（A）一个事务的所有系列操作步骤被看成一个动作，所有的步骤要么全部完成，要么一个也不会完成。如果在事务过程中发生错误，则会回滚到事务开始前的状态，将要被改变的数据库记录不会被改变。一致性（C）一致性是指

2021-06-05 10:56:17 84

原创数据查询语言（二）

MySQL day6自连接-- 创建测试的表CREATE TABLE `school`.`category`( `categoryid` INT(3) NOT NULL COMMENT 'id', `pid` INT(3) NOT NULL COMMENT '父id 没有父则为1', `categoryname` VARCHAR(10) NOT NULL COMMENT '种类名字', PRIMARY KEY (`categoryid`) ) ENGINE=INNODB CHARSET=utf8

2021-06-03 16:18:34 107 2

原创数据查询语言（一）

MySQL day5DQL 查询数据（最重点）DQL（Data Query LANGUAGEZ: 数据查询语言）所有查询操作都用它 Select简单、复杂的查询都能数据库中最核心的语言，最重要的语句使用频率最高的语言指定查询字段-- 查询全部的学生 select 字段 form 表SELECT * FROM `student`;-- 查询指定字段SELECT `studentno`,`studentname` FROM `student`;-- 别名，给结果起一个名字

2021-06-03 16:16:18 405

原创用flink来进行词频统计

flink 作为第三代大数据计算框架可以实现数据的流处理和批处理目前是阿里的开源项目来看看怎么通过flink进行最简单的词频统计吧编写词频统计Java代码批处理词频统计代码package com.chengyuyang.wordcount;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.

2021-06-02 11:08:44 1926 1

原创数据库DML 语言

MySQL day4DML 语言（全部记住）数据库的意义：数据存储，数据管理DML语言：数据操作语言insertupdatedelete添加insert 语句添加-- 插入语言-- insert into 表名 ([字段1，字段2，字段3.....]) values('值1'，'值2'，'值3'.....)INSERT INTO `grade`(`gradename`) VALUES ('大二');-- 一般插入语句，数据和字段一定要一一对应-- 插入多个字段I

2021-06-02 09:39:05 103

原创数据库表语法及数据管理

本文转载于我的个人博客数据库表语法及数据管理遵循 CC 4.0 BY-SA 版权协议MySQL day3# 创建数据库表（重点）-- 目标：创建一个school数据库-- 创建学生表（列、字段）使用SQL 创建-- 学号int 登陆密码varchar(20) 姓名，性别varchar(2),出生日期（datatime）,家庭住址，email-- 注意点，只用英文（），表的名称和字段尽量使用`` 括起来-- AUTO_INCREMENT 自增-- 字符串使用单括号括起来！--

2021-06-02 09:32:17 113

原创数据库的连接及其属性

本文转载于数据库的连接及其属性遵循 CC 4.0 BY-SA 版权协议MySQL day2连接数据库命令行连接mysql -uroot -p123456 -- 连接数据库update mysql .user set authentication_string=password('123456')where user='root' and Host = 'localhost'; -- 修改用户密码-- -------------------------------------- 所有语句

2021-06-01 09:21:07 983

原创数据库概念及其MySQL安装

本文转载于数据库概念及其MySQL安装遵循 CC 4.0 BY-SA 版权协议MySQL day1为什么要学数据库岗位需求现在的世界：大数据时代，得数据得得天下。被迫需求：存数据数据库是所有软件体系中最核心的存在 (DBA)什么是数据库数据库（DB DataBase）概念：数据仓库，软件，安装在**操作系统**之上跨平台，可以存储大量的数据(五百万以下)作用：存储数据，管理数据数据库分类关系型数据库： SQLMySOL Oracle sql Server DB

2021-06-01 09:15:44 65

转载机器学习（十一）单层感知器算法

单层感知器算法感知器介绍感知器为二分类模型与逻辑回归类似其输入为实例的特征向量，输出为实例的类别，取+1或者-1值。简单来说，就是在平面坐标轴画一条直线，把点分为两类。感知器结构输入节点：x1,x2,x3输出节点：y权衡向量：w1,w2,w3偏置因子： b激活函数：sign⁡(x)={1x>00x=0−1x<0\operatorname{sign}(x)=\left\{\begin{array}{rl}1 & x>0 \\0 & x=0 \\-1

2020-09-24 22:36:54 1890

原创 VM虚拟机安装ubuntu20.04小技巧

VM虚拟机安装ubuntu20.04小技巧由于今年开始了云计算和大数据平台的学习，老师要求给自己的电脑安装双系统用来学习Linux系统，由于我不想给硬盘分区和装系统，所以我决定在虚拟机上安装Linux系统。本来以为会比装双系统更加轻松，哪知道里面的坑巨多，我和室友整整踩了一天的坑才下好。1.ubuntu20.04镜像文件下载最初准备在Ubuntu官网下载镜像文件，哪知道下载速度只有几十k每秒，2GB的文件今日要下几天！！！！！还好国内有镜像软件传送门2.ubuntu20.04安装程序卡死，一直转

2020-09-24 21:43:49 2422

原创机器学校（十）K-Means算法实现

K-Means算法实现K-Means算法步骤介绍：从样本中选择k个点作为初始簇中心。计算每个样本到各个簇中心的距离，将样本划分到距离最近的簇中心所对应的簇中。根据每个簇中的所有样本，重新计算簇中心，并更新。重复步骤2和3，直到簇中心的位置变换小于指定的阈值或者达到最大迭代次数为止。食物和肉类购买聚类分析导入数据import numpy as npimport pandas as pddata = pd.read_csv(r"order.csv", header=0)处理数据

2020-09-15 20:03:25 246

原创机器学习（九） K-Means（K-均值）聚类算法介绍

K-Means（K-均值）聚类算法介绍监督学习和无监督学习无监督学习和监督学习是机器学习最基本的两种类型。在理解聚类算法前必须了解这两类两种类型直接的差别监督学习（supervised learning）在监督学习中最常见的是回归和分类（注意和聚类区分），关于回归，是将输入的数据集按照一个函数（模型参数）进行训练学习，当要对新来的数据进行预测时，便可以通过这个函数来进行回归预测。关于分类，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评

2020-09-14 20:40:35 1182

原创机器学习（八）逻辑回归

逻辑回归Logistic 回归概述逻辑回归虽然被称为回归，但其实际上是分类模型，并常用于二分类。其主要思想是:根据现有数据对分类边界线(Decision Boundary)建立回归公式，以此进行分类。须知概念Sigmoid 函数回归概念假设现在有一些数据点，我们用一条直线对这些点进行拟合（这条直线称为最佳拟合直线），这个拟合的过程就叫做回归。进而可以得到对这些点的拟合直线方程，那么我们根据这个回归方程，怎么进行分类呢？请看下面。二值型输出分类函数我们想要的函数应该是: 能接受所有的输入然

2020-08-12 11:04:55 1187

转载机器学习（七）岭回归

正则化(Regularization)概念及原因正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。在构造机器学习模型时，最终目的是让模型在面对新数据的时候，可以有很好的表现。但是当使用比较复杂的模型比如神经网络，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这会导致模型的泛化能力下降，这时候，我们就需要使用正则化，降低模型的复杂度。正则化代价函数L1正则化：J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1n∣θj∣]J(\thet

2020-08-03 20:43:10 2766

原创机器学习（六）多元线性回归之最小二乘法

线性回归的原理多元回归的一般式y^(θ,x)=θ0+θ1x1+…+θpxp\hat{y}(\theta, x)=\theta_{0}+\theta_{1} x_{1}+\ldots+\theta_{p} x_{p}y^(θ,x)=θ0+θ1x1+…+θpxp其中：y^\hat{y}y^:预测值θ0,θ1,…θp\theta_{0}, \theta_{1}, \ldots \theta_{p}θ0,θ1,…θp:参数x0,x1,…xpx_{0}, x_{1}, \ldots

2020-08-03 15:10:05 8835 3

原创机器学习（五）多元线性回归

线性回归多元线性回归（多特征）hθ(x)=θ0+θ1x1+θ2x2+...+θnxnh_\theta(x) = \theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_nhθ(x)=θ0+θ1x1+θ2x2+...+θnxn当Y值的影响因素不是唯一时，采用多元线性回归模型代价函数（损失函数）最小二乘法计算误差J(θ0,θ1,...,θn)=1/2m∑i=1m(yi−hθ(xi))2J(\theta_0,\theta_1,...,\thet

2020-07-31 09:23:23 428

原创机器学习（四）一元线性回归

线性回归一元线性回归（单特征）hθ(x)=θ0+θ1xh_\theta(x) = \theta_0+\theta_1xhθ(x)=θ0+θ1x这个方程对于的图像是一条直线，称为回归线。其中θ1\theta_1θ1为回归线的斜率，θ0\theta_0θ0为回归线的截距代价函数（损失函数）最小二乘法计算误差J(θ0,θ1)=1/2m∑i=1m(yi−hθ(xi))2J(\theta_0,\theta_1) = 1/2m\sum_{i=1}^{m} {(y^i-h_\theta(x^i)

2020-07-31 09:20:24 427

原创机器学习（三）KNN回归

基于KNN 算法，实现对于鸢尾花第四个数据的预测原理该算法用于回归预测，根据前三个特征属性，寻找最近的k个邻居，然后再根据k个邻居的第4个特征属性，去预测当前样本的第4个特征值数据集的准备和处理删除数据中不需要的类别列和重复的数据data = pd.read_csv(r"iris.arff.csv", header=0)#删除不需要class列（特征）, 因为进行回归预测，类别信息，没有用处了data.drop(["class"],axis = 1, inplace = True)#删

2020-07-31 09:15:35 1699

原创机器学习（二）KNN分类

基于KNN 算法，实现对于鸢尾花分类数据集的准备和处理数据集介绍Iris数据集每个样本x包含了花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）、花瓣宽度（petal width）四个特征。样本标签y共有三类，分别是Setosa，Versicolor和Virginica。Iris数据集总共包含150个样本，每个类别由50个样本，整体构成一个150行5列的二维表。数据集的处理1.导入 numpy库和 pandas库提取数据im

2020-07-30 21:34:41 856

原创机器学习（一）KNN算法介绍

KNN算法介绍算法概述KNN的全称是K-Nearest-Neighbors(最邻近规则分类)，是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。如图假设图中绿色的点就要预测的那个点，假设K=3。那么KNN算法就会找到与它距离最近的三个点（这里用圆圈圈起），通过比较哪种类别多一些，来将预测的点归为周围最多的类别。（比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角

2020-07-30 20:34:29 1441

weixin_45781143的博客