自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 简述为什么数据要进行标准化和scale函数的应用

先自定义实现一下Scalefrom sklearn import preprocessingimport numpy as npx=np.array([[10,112,2],[10,0,0],[0,30,-1]])#求均值X_mean=x.mean(axis=0)X_std=x.std(axis=0)#求方差#将每一个列都比昂其标准化的正态分布x_scale=preprocess...

2020-08-24 14:16:25 1142

原创 流水线Imputer的使用对pima数据进行处理

流水线的处理 可以先看一下度娘pima数据的分布情况对数据进行简单的处理#手动添加列的标题pima_column_names=["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age","Outcome"]pima=pd.read_csv...

2020-08-24 14:15:59 304

原创 spark源码阅读-动作操作stage的划分和job的提交

spark算是一个比较用途广泛的一个框架,dan是要想真正了解其框架还是要从其源码开始

2020-08-24 14:15:36 223

原创 利用Actor来实现一个简单的模拟Spark中master和worker的通讯

我们先设计两个Actor,一个是Master 另一个WorkerWorker :必须像master发送心跳信息,所以我要早Worker中获取Master的引用第一次通讯的时候我应该先到Master注册自己的信息,方便Master来调度定时向master发送心跳信息,防止Worker节点崩溃,Master却没有感知到的情况Master接收Worker发送的信息存到一个Map里面检测客户端的状态,将异常的节点从Map里面移除接收客户端的心跳信息,加入接收到心跳的时间,这里Actor是一

2020-08-24 14:15:21 249

原创 自定义实现朴素贝叶斯

一. 朴素贝叶斯 朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。首先给出贝叶斯公式:P(A|B)=(P(B|A)/P(A)*P(B)可以先记住这个公式,后面会在实际的情况下做具体解释的,先根据如下的数据集做两个题目练习下随机选择一个人是both的概率是多少? ===> P(both)=5/10=1/2在购买类别i001上午类别下选择理由是both的概率是多少? =====> 算出可以

2020-08-24 14:14:58 319

原创 实时分析kafka数据进行单词计数

1.首先要解决版本问题,先看自己的spark的版本,这一步及其重要,scala版本必须相同 我的scala版本是 2.11.122.在你的idea下面导入相同的scala版本,步骤放上3.引入jar包 ,现在我的kafka的版本是 2.11-2.00的版本所以 streaming-kafka-0-10_2.10 这个包一定要2.10dependencies { testCompile group: 'junit', name: 'junit', version: '4.12' c

2020-08-24 14:14:24 481

原创 updateStateByKey的用法

1.首先,先看它的方法标签,主要传进来三个参数,第一个是一个updateFunc函数,这个函数很明确的告诉你这里面的输入值是 updateFunc: (Iterator[(K, Seq[V], Option[S])]) => Iterator[(K, S)],输出值是Iterator[(K, S)]另外一个参数就是分区器下面主要介绍updateFunc这个函数是如何处理数据的,现在我们从实际场景出发,现在这个函数是有状态的,就意味着要保存上一次DStream的结果,利用上一个DStr

2020-08-24 14:14:08 643

原创 利用python爬取虎扑的数据并可视化数据处理

1.先给出爬取效果图,存成一个csv文件具体python代码# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""from urllib.parse import urlencodefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.ac

2020-08-24 14:13:51 2860

原创 python利用百度API来爬区长沙市小区

百度api提供了一个很好的接口 ,可以直接调用点我查看看具体的文档然后获取百度AK帐号 这个可以自己申请接下来附上完整的代码 参考#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sun Jul 26 10:13:56 2020112.840125,27.972971 112.984766,28.283357@author: mac"""bigRect = {'望城区':{'left': {'x': 112.67

2020-08-24 14:13:27 378

原创 sparksql的两种创建方法和DateFrame和数据库直接的简单交互

1.通过创建SparkSession对象,创建完之后你可以直接读取文件返回的是一个Dataset[String] 对象 DataSet对象可以直接转成DataFrame格式,这个类似于python的DataFrame格式,如何就可以自己指定字段,如果不指定字段就回默认只有一个字段 Value,创建完表之后就可以直接进行增删改查了 val spark = SparkSession .builder() .appName("Spark SQL basic example")

2020-08-24 14:12:29 255

原创 jenkins+dockier环境配置

jenkins安装==安装命令===yum install wgetwget -O /etc/yum.repos.d/jenkins.repo https://pkg.jenkins.io/redhat-stable/jenkins.reporpm --import https://pkg.jenkins.io/redhat-stable/jenkins.io.keyyum install jenkinschkconfig jenkins onsystemctl start jenkins=

2020-08-19 21:08:16 101

原创 Linux下面更新jenkins

更新jenkins主要就是要更新jenkins.war这个包 点我下载最新的war包下一步就是要在Linux下面找到war包的位置 提供一个查找文件的命令find / -name jenkins.war将下载好的war打包传到该目录 mac可以直接利用scp jenkins.war root@nodel:/usr/lib/jenkins重启 systemctl restart jenkins...

2020-08-09 15:28:43 393

原创 搭建一个java版分词服务器

1.先介绍其原理,并以结巴分词服务器来举例,其实这种服务器类似于Tomcat,只是专门初处理一种特定的功能具体要求是 我利用浏览器或者程序发送一个Get请求,如何这个服务器给我一个响应结果,先给出一个示范,通过对一个单词或者词组进行分词,返回给浏览器1.python版实现 ,这个比较简单,但是效率不是特别高,具体请看代码注释,我会在下面具体写出java版的分词服务器的#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sun J

2020-06-08 16:15:52 475

原创 kafka 启动流程 和环境的搭建

测试环境:伪分布式,配置如下:本机一台 zk,端口 2181,使用kafka自带的 zkkafka使用伪分布式, 占用三个端口: 9092,9093,9094伪分布配置方案: server.properties server-1.properties server-2.propertiesbroker.id=2 //每台个节点的 id不同listeners=PLAINTEXT://:9094 //每个端口不同log.dirs=/tmp/klogs-3 /

2020-06-05 18:44:20 390

原创 用java来实现一个简单的线程死锁

死锁是指两个线程分别持有着锁,并相互等待对方释放锁的现象,发生死锁的线程都无法再继续运行,程序也就失去了生存性打个比方,假如Alice.Bobby一起去吃意大利面,但是盘子旁边只有一把勺子和一把叉子,但是如果是想吃意大利面,叉子和勺子缺一不可。现在的情况下 仅有的一把勺子被Alice拿走了,但是另一把叉子被Bobby拿走了,于是…Alice拿着勺子一直等待Bobby放下叉子Bobby拿着叉子一直等待Alice放下勺子看现在的情况 Alice和Bobby就这样面面相觑,谁也吃不了,像这样,多

2020-05-26 16:48:46 173

原创 利用注解机制简单的自定义实现Spring中IOC和DI

实现Spring中的IOC和DI其实也不是很难,关键是要找到地方下手,我们可以先仿照Spring中的注解声明然后从Spring中的入口类 appConfig类开始 我们发现中间最主要的是 ApplicationContext类,我们可以这么想 ,假设将我要扫描包的所有路径传入到这个类中,然后循环所有的这个包里面的内容 将带有java后缀名的类利用反射进行实例话,然后筛选带有Component和Service的注解的的类实例话将其放到一个Map中,然后提供一个getBean()方法根据类名来获取这个类的实例

2020-05-25 23:46:34 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除