李佳星-CSDN博客

原创长难句笔记

一、简单句二、并列句三、名词四、动词五、形容词和副词六、英语的特殊结构第一节简单句一、what is 简单句？试译：我的英语说得很好：I spark English well.沙坪坝到了;We are arriving at spb station英语必须具备主谓结构，并且主语是谓语发出者，如果有宾语主语是谓语的承受者。二、简单句的分类：1.主谓结构；he ...

2020-04-18 17:47:45 15842 1

原创 Find命令

Find 命令查找指定文件名的文件(不区分大小写)：find -iname "MyPro.c"对找到的文件执行某个命令find -iname "mypro.C -exec md5sum {} "查找home目录下的空文件find ~ -empty再/usr 目录下找出超过10MB的文件find /usr -type f -size +10240kdu 命令也可做到...

2020-03-29 15:20:22 463

原创 MySql常见语句

windows服务：-- 启动mysqlnet start mysql-- 创建windows服务sc create mysql binpath = mysqld_bin_path(注意：等号与值之间应该有空格创建与断开服务器mysql -h 地址 -p 端口 -u用户名 -p 密码-- 显示哪些线程正在运行SHOW PROCESSLIST;--显示系统变量信息SHOW V...

2020-01-08 23:55:22 219

原创 Linux的tcpdump详解

tcpdump一款sniffer工具，是Linux上的抓包工具，嗅探器补充说明tcpdump命令是一款抓包，嗅探器工具，它可以打印所有经过网络接口的数据包的头信息，也可以使用-w选项将数据包保存到文件中，方便以后分析。用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以...

2020-01-08 22:52:58 1053

原创参数估计

中心极限定理是指随着样本容量n的增加，样本的均值抽样分布的形态也随之发生变化，将越来越接近于正态分布。通常将样本容量n大于30的样本称为大样本，大样本组成的均值抽样分布可以被认为是服从正态分布的。参数估计有两种方法：点估计和区间估计，区间估计包含了点估计。二者的相同点都是基于一个样本作出；不同点是点估计只提供单一的估计值，而区间估计在点估计的基础上还提供了一个误差界限，给出了取值范围——这...

2019-12-25 22:15:46 1378

原创 Python抽样分布实践

本次选取泰坦尼克号的数据，利用python进行抽样分布描述，主要是提供实现代码，具体的理论知识不会过多涉及。（注：是否服从T分布不是进行t检验~）字段说明：Age:年龄，指登船者的年龄。Fare:价格，指船票价格。Embark:登船的港口。需要验证的是：1、验证数据是否服从正态分布？2、验证数据是否服从T分布？3、验证数据是否服从卡方分布？我们选取年龄作为栗子进行数据验证。i...

2019-12-25 22:03:38 214

原创数据埋点概念学习

分类：术语学习：一些专业数据的定义说明，比如；session、URL；定义学习：针对口径的说明和解释，比如：订单数、支付订单，GMV ;黑话术语：常见的特定含义的黑化，或专业约定的俗语说明，如：渠道，触发，常见术语session：又称“会话”，平时也会称作session逻辑、会话逻辑、窗口期。在互联网网络应用中，是一种“会话控制”，当用户在访问应用程序（WEB、APP等）内的页...

2019-12-15 18:00:17 632

原创数据埋点概述

1.1 概述数据和特征决定了机器学习算法的上线，而模型和算法只是不断地逼近这个上限而已。分类：流量数据：以用户访问产品，记录用户浏览行为核心的埋点数据日志以生产系统内存储的业务表单数据为核心的业务数据记录。用户访问产品时候的交互“动作”触发的是埋点数据的流量数据，用户访问产品看到的内容是业务数据。比如：我们“点击广告”时间，能够产生一条埋点数据，我们看到的广告内容是“商品”信息，商品...

2019-12-15 17:34:08 1554

原创抽样分布

1.1统计量1.1.1 统计量概念当我们从总体中抽取一个样本（X1X_1X1,X2X_2X2,…XnX_nXn）,并不直接用它对总体的有关性质进行推断，是因为其有关信息相对分散。为了使统计推断成为可能，首先把关心的信息集中起来，对不同的研究目的，构成不同的样本函数，这就称之为统计量。例：（X1X_1X1,X2X_2X2,…XnX_nXn）是从某总体XXX中的一个样本.，则：xˉ...

2019-12-09 23:10:12 1244

原创梯度下降

1.1 机器学习方法论机器学习就是需要找一种函数f（x）并进行优化，并这种函数能够做预测、分类、生成等工作。那么其实可以总结出关于"如何找到函数f（x）“的方法论。可以看做是机器学习的"三板斧”：第一步：定义一个函数集合（define a function set）第二步：判断函数的好坏（goodness of a function）第三部：选择好的函数（pick the best o...

2019-12-08 23:39:18 306

原创线性回归算法

1.1 什么是简单线性回归KNN算法属于分类(Classification),即label为离散的类别（categorical variable）如：颜色类别，手机品牌而简单线性回归是否属于回归（regression），即label为连续数值型（continuous numerical varibale）如房价，股票，降雨量什么是简单线性回归？所谓简单，是指有一个样本特征，即只有一个...

2019-12-08 19:37:48 1592

原创 python实现概率分布

一、概率分布概率分布，是概率论的基本概念之一，主要用以表述随机变量取值的概率规律。为了使用的方便，根据随机变量所属类型的不同，概率分布取不同的表现形式。概率分布包括离散概率分布和连续概率分布。离散数据：数据由一个个单独的数值组成，其中的每一个数值都有相应概率。连续数据：数据涵盖的是一个范围，这个范围内的任何一个数值都有可能成为事件的结果。二、安装python的科学计算包scipy在p...

2019-12-08 16:10:14 1620

原创数据可视化

可视化的终极目标是洞悉蕴含在数据中的现象和规律，从而帮助用户高效而准确的进行决策。0x01 可视化过程一个完整的数据可视化过程，主要包括以下4个步骤：确定数据可视化的主题；提炼可视化主题的数据；根据数据关系确定图表；进行可视化布局及设计；0x02 确定数据主题可视化过程的第一步：确定数据主题，即确定需要可视化的数据是围绕什么主题或者目的来组织的。在可视化过程中的4个步骤之中，第一...

2019-11-24 22:39:56 521

原创概率分布

1.1基本概念随机变量：在同一组条件下，每一次实验都会出现不同的结果，并且所有的结果都能列举出来，即X1，X2……Xn。具有概率P(X1)，P(X2)……P(Xn),其中P(Xi) = P(X=Xi)，称为概率函数（probability function），则X称为P(X)的随机变量，反之称为概率函数可以说，随机变量是用随机事件描述随机现象的数量关系的推广，且随机变量在概率论和数据统计研...

2019-11-24 22:28:56 296

原创简单的数据预处理和特征工程

1.1无量纲化：在实际应用中，样本的不同特征的单位不同，会在求距离时造成很大的影响。如果以其中某一单位，其结果就会被本单位所主导。所以在量纲不同的情况下，如果不能反应样本中每一个特征的重要程度，这时就需要数据归一化了。一般来说，我们的解决方案是：把所有的数据都映射到同一个尺度（量纲）常用的数据归一化有两种：最值归一化（normalization）：把所有数据映射到0-1之间。最值归一化...

2019-11-24 21:50:35 338

原创描述性统计的实现

获取数据：# -*- coding: utf-8import pandas as pdfrom scipy import statsimport numpy as npimport matplotlib.pyplot as pltimport xlrdpath = xlrd.open_workbook("C:\\Users\\Administrator\\Downloads\\...

2019-11-24 11:43:17 535

原创 KNN算法

KNN算法的原理：近朱者赤，近墨者黑。step1：计算待分类物体和其他物体之间的距离step2：统计距离最近的K个邻居step3：位置物体分类=K个最近的邻居，分类最多的那个类别。K值选择：K值太小，容易过拟合。K值太大，容易欠拟合。交叉验证的方式选取K值。距离定义：欧式距离：曼哈顿距离：闵可夫斯基距离切比雪夫距离余弦距离KD树：定义：对数据点在K维空...

2019-11-10 23:49:56 934

描述性统计数据分布的特征主要从三个方面进行测度和描述：一是分布的集中趋势，反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度：反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。1.1 集中趋势的度量集中趋势（central tendency）是指某一组数据向某一中心点靠拢的程度，它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据，反之不可。...

2019-11-10 23:28:24 1538

原创数据的图表展示

数据的预处理数据的预处理是在对数据分类或分组之前所做的必要处理，内容包括数据的审核、筛选、排序等。1.1数据预处理1.1.1 数据审核数据审核就是检查数据中是否有错误。通过原始数据（raw data），需要从完整性和准确性两个方面去审核。完整性审核：主要检查应调查的单位或者个体是否有遗漏，所有的调查项目是否填写齐全。准确性审核：主要是检查数据是否有错误，是否存在异常值等。如果记录错误...

2019-11-03 22:37:53 2017

原创 kafka中的ISR、AR又代表什么？ISR伸缩又是什么？

ISR

2019-06-21 14:09:24 46436 7

原创 Spark之RDD

Spark之RDDRDD的概述：1.1什么是RDD RDD(Ressilient Distributed Dataset）名为弹性（容错）分布式数据集，是一个逻辑上的概念，实际上没有数据，是Spark中最基本的数据抽象。它代表一个不可变，可分区，元素能够用于并行计算的的集合。该类包含所有rdd上可用的基本操作，如：”map”, ”filter”****。什么是弹性：\1. RDD可以再内...

2019-03-02 13:05:53 236

weixin_43975220的博客