自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 长难句笔记

一、简单句二、并列句三、名词四、动词五、形容词和副词六、英语的特殊结构第一节 简单句一、what is 简单句?试译:我的英语说得很好:I spark English well.沙坪坝 到了;We are arriving at spb station英语必须具备主谓结构,并且主语是谓语发出者,如果有宾语主语是谓语的承受者。二、简单句的分类:1.主谓结构;he ...

2020-04-18 17:47:45 15070 1

原创 Find命令

Find 命令查找指定文件名的文件(不区分大小写):find -iname "MyPro.c"对找到的文件执行某个命令find -iname "mypro.C -exec md5sum {} "查找home目录下的空文件find ~ -empty再/usr 目录下找出超过10MB的文件find /usr -type f -size +10240kdu 命令也可做到...

2020-03-29 15:20:22 407

原创 MySql常见语句

windows服务:-- 启动mysqlnet start mysql-- 创建windows服务sc create mysql binpath = mysqld_bin_path(注意:等号与值之间应该有空格创建与断开服务器mysql -h 地址 -p 端口 -u用户名 -p 密码-- 显示哪些线程正在运行SHOW PROCESSLIST;--显示系统变量信息SHOW V...

2020-01-08 23:55:22 154

原创 Linux的tcpdump详解

tcpdump一款sniffer工具,是Linux上的抓包工具,嗅探器补充说明tcpdump命令 是一款抓包,嗅探器工具,它可以打印所有经过网络接口的数据包的头信息,也可以使用-w选项将数据包保存到文件中,方便以后分析。用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以...

2020-01-08 22:52:58 865

原创 参数估计

中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被认为是服从正态分布的。参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供单一的估计值,而区间估计在点估计的基础上还提供了一个误差界限,给出了取值范围——这...

2019-12-25 22:15:46 1234

原创 Python抽样分布实践

本次选取泰坦尼克号的数据,利用python进行抽样分布描述,主要是提供实现代码,具体的理论知识不会过多涉及。(注:是否服从T分布不是进行t检验~)字段说明:Age:年龄,指登船者的年龄。Fare:价格,指船票价格。Embark:登船的港口。需要验证的是:1、验证数据是否服从正态分布?2、验证数据是否服从T分布?3、验证数据是否服从卡方分布?我们选取年龄作为栗子进行数据验证。i...

2019-12-25 22:03:38 155

原创 数据埋点概念学习

分类:术语学习:一些专业数据的定义说明,比如;session、URL;定义学习:针对口径的说明和解释,比如:订单数、支付订单,GMV ;黑话术语:常见的特定含义的黑化,或专业约定的俗语说明,如:渠道,触发,常见术语session:又称“会话”,平时也会称作session逻辑、会话逻辑、窗口期。在互联网网络应用中,是一种“会话控制”,当用户在访问应用程序(WEB、APP等)内的页...

2019-12-15 18:00:17 513

原创 数据埋点概述

1.1 概述数据和特征决定了机器学习算法的上线,而模型和算法只是不断地逼近这个上限而已。分类:流量数据:以用户访问产品,记录用户浏览行为核心的埋点数据日志以生产系统内存储的业务表单数据为核心的业务数据记录。用户访问产品时候的交互“动作”触发的是埋点数据的流量数据,用户访问产品看到的内容是业务数据。比如:我们“点击广告”时间,能够产生一条埋点数据,我们看到的广告内容是“商品”信息,商品...

2019-12-15 17:34:08 1407

原创 抽样分布

1.1统计量1.1.1 统计量概念当我们从总体中抽取一个样本(X1X_1X1​,X2X_2X2​,…XnX_nXn​),并不直接用它对总体的有关性质进行推断,是因为其有关信息相对分散。为了使统计推断成为可能,首先把关心的信息集中起来,对不同的研究目的,构成不同的样本函数,这就称之为统计量。例:(X1X_1X1​,X2X_2X2​,…XnX_nXn​)是从某总体XXX中的一个样本.,则:xˉ...

2019-12-09 23:10:12 1100

原创 梯度下降

1.1 机器学习方法论机器学习就是需要找一种函数f(x)并进行优化,并这种函数能够做预测、分类、生成等工作。那么其实可以总结出关于"如何找到函数f(x)“的方法论。可以看做是机器学习的"三板斧”:第一步:定义一个函数集合(define a function set)第二步:判断函数的好坏(goodness of a function)第三部:选择好的函数(pick the best o...

2019-12-08 23:39:18 247

原创 线性回归算法

1.1 什么是简单线性回归KNN算法属于分类(Classification),即label为离散的类别(categorical variable) 如:颜色类别,手机品牌而简单线性回归是否属于回归(regression) ,即label为连续数值型(continuous numerical varibale) 如房价,股票,降雨量什么是简单线性回归?所谓简单,是指有一个样本特征,即只有一个...

2019-12-08 19:37:48 1495

原创 python实现概率分布

一、概率分布概率分布,是概率论的基本概念之一,主要用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。概率分布包括离散概率分布和连续概率分布。离散数据:数据由一个个单独的数值组成,其中的每一个数值都有相应概率。连续数据:数据涵盖的是一个范围,这个范围内的任何一个数值都有可能成为事件的结果。二、安装python的科学计算包scipy在p...

2019-12-08 16:10:14 1474

原创 数据可视化

可视化的终极目标是洞悉蕴含在数据中的现象和规律,从而帮助用户高效而准确的进行决策。0x01 可视化过程一个完整的数据可视化过程,主要包括以下4个步骤:确定数据可视化的主题;提炼可视化主题的数据;根据数据关系确定图表;进行可视化布局及设计;0x02 确定数据主题可视化过程的第一步:确定数据主题,即确定需要可视化的数据是围绕什么主题或者目的来组织的。在可视化过程中的4个步骤之中,第一...

2019-11-24 22:39:56 420

原创 概率分布

1.1基本概念随机变量:在同一组条件下,每一次实验都会出现不同的结果,并且所有的结果都能列举出来,即X1,X2……Xn。具有概率P(X1),P(X2)……P(Xn),其中P(Xi) = P(X=Xi),称为概率函数(probability function),则X称为P(X)的随机变量,反之称为概率函数可以说,随机变量是用随机事件描述随机现象的数量关系的推广,且随机变量在概率论和数据统计研...

2019-11-24 22:28:56 230

原创 简单的数据预处理和特征工程

1.1无量纲化:在实际应用中,样本的不同特征的单位不同,会在求距离时造成很大的影响。如果以其中某一单位,其结果就会被本单位所主导。所以在量纲不同的情况下,如果不能反应样本中每一个特征的重要程度,这时就需要数据归一化了。一般来说,我们的解决方案是:把所有的数据都映射到同一个尺度(量纲)常用的数据归一化有两种:最值归一化(normalization): 把所有数据映射到0-1之间。最值归一化...

2019-11-24 21:50:35 268

原创 描述性统计的实现

获取数据:# -*- coding: utf-8import pandas as pdfrom scipy import statsimport numpy as npimport matplotlib.pyplot as pltimport xlrdpath = xlrd.open_workbook("C:\\Users\\Administrator\\Downloads\\...

2019-11-24 11:43:17 423

原创 KNN算法

KNN算法的原理:近朱者赤,近墨者黑。step1:计算待分类物体和其他物体之间的距离step2:统计距离最近的K个邻居step3:位置物体分类=K个最近的邻居,分类最多的那个类别。K值选择:K值太小,容易过拟合。K值太大,容易欠拟合。交叉验证的方式选取K值。距离定义:欧式距离:曼哈顿距离:闵可夫斯基距离切比雪夫距离余弦距离KD树:定义:对数据点在K维空...

2019-11-10 23:49:56 684

原创 描述性统计

描述性统计数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。1.1 集中趋势的度量集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。...

2019-11-10 23:28:24 1398

原创 数据的图表展示

数据的预处理数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。1.1数据预处理1.1.1 数据审核数据审核就是检查数据中是否有错误。通过原始数据(raw data),需要从完整性和准确性两个方面去审核。完整性审核:主要检查应调查的单位或者个体是否有遗漏,所有的调查项目是否填写齐全。准确性审核:主要是检查数据是否有错误,是否存在异常值等。如果记录错误...

2019-11-03 22:37:53 1891

原创 kafka中的ISR、AR又代表什么?ISR伸缩又是什么?

ISR

2019-06-21 14:09:24 46013 7

原创 Spark之RDD

Spark之RDDRDD的概述:1.1什么是RDD RDD(Ressilient Distributed Dataset)名为弹性(容错)分布式数据集,是一个逻辑上的概念,实际上没有数据,是Spark中最基本的数据抽象。它代表一个不可变,可分区,元素能够用于并行计算的的集合。该类包含所有rdd上可用的基本操作,如:”map”, ”filter”****。什么是弹性:\1. RDD可以再内...

2019-03-02 13:05:53 200

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除