自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 核函数概率估计

K(.)为核函数(非负、积分为1,符合概率密度性质,并且均值为0)。在使用核密度估计时,如果带宽设置过小,会出现过拟合的现象,如果带宽设置过大,会出现欠拟合的现象,因此需要确定好最佳的带宽;所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。Kh(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。h>0为一个平滑参数,称作带宽(bandwidth),也叫窗口。最佳带宽:0.6734150657750824。

2023-06-20 13:32:21 1451

原创 CoFlux:通过波动将kpi稳健地关联起来,以便进行服务故障排除

苏亚,赵友建,夏文涛,刘蓉,卜家豪,朱静,曹元璞,李海滨,牛晨豪,张益银,王兆刚,裴丹* 清华大学,史蒂文斯理工学院,南开大学,国防科技大学,阿里巴巴集团,北京国家信息科学技术研究中心摘要:互联网服务公司会监控大量的kpi(关键性能指标),以确保他们的服务质量稳定性和可靠性。通过指标波动来关联kpi可以揭示异常情况下kpi之间的交互,这对于服务的故障排除非常有用。然而,到目前为止,在互联网服务运营管理领域,对这种KPI指标关联的研究还很少。一个主要挑战是,对于大量kpi,如何自动准确地将具有不同结构特征

2023-06-20 10:16:40 504

原创 在线日志分析的语义感知框架

在四个公共生产日志数据集上的评估实验表明,Log2Vec不仅修复了OOV词呈现的问题,而且显著提高了两个流行的基于日志的服务管理任务的性能,包括日志分类和异常检测。此外,我们还将Log2Vec应用于两个流行的基于日志的服务管理任务,包括日志分类和异常检测,这都表明Log2Vec可以提取日志的关键特征,并显著提高日志的性能。因此,日志自动分类也是日志分析中的一项重要任务。本文的目的是强调NLP驱动的日志方法的前景,并讨论在线日志分析场景中必须克服的挑战(例如,特定于日志的信息和OOV词),以实现这一愿景。

2023-06-20 09:44:04 437

原创 通过服务级深度贝叶斯网络对微服务调用链异常进行无监督检测

作者:刘平,徐浩文,陈哲康,张圣林,杨家海,裴丹||清华大学,南开大学,鹏城实验室,北京国家信息科学技术研究中心 摘要:微服务调用链路(调用链)的异常通常表明基于微服务的大型软件服务的质量正在受到损害。然而,及时、准确地检测调用链异常非常具有挑战性,原因是:1)底层微服务数量众多,2)它们之间复杂的调用关系,3)响应时间和调用路径之间的相互依赖性。我们的核心思想是利用机器学习在周期性的离线训练中自动学习调用链的整体正常模式。在在线异常检测中,一个新的异常值较小的调用链(根据学习的正常模式计算)被认为是

2023-06-16 22:53:21 724

原创 判断正态分布方法(画图/k-s检验)

结果是KstestResult(statistic=0.01441344628501079, pvalue=0.9855029319675546),p值大于0.05为正态分布。其中期望值决定密度函数的位置,标准差决定分布的幅度,当υ=0,σ=0 时的正态分布是标准正态分布。若随机变量x服从有个数学期望为μ,方差为σ2 的正态分布,记为N(μ,σ)判断方法有画图/k-s检验。

2023-03-21 20:29:08 2234 1

原创 pd_to_datetime将时间戳转换日期格式问题

时间戳转化

2022-08-31 16:35:01 2140 1

原创 数据处理中遇到的问题

2022-01-04 16:56:42 399

原创 【Python版】常用正则表达式速查手册

一、校验数字的表达式1.数字:^[0-9]*$2.n位的数字:^\d{n}$3.至少n位的数字:^\d{n,}$4.m-n位的数字:^\d{m,n}$5.零和非零开头的数字:^(0|[1-9][0-9]*)$6.非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7.带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$8.正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$9.有两位小数的正实数:^[0-

2021-11-22 11:18:14 118

原创 Python与Scala语法对照

ListHashMapSetFor loopRange

2021-09-07 14:09:25 243

原创 Python 时间模块常见转化用法汇总

获取当前字符串类型时间now_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())获取当前秒级时间戳import timenow = time.time() #返回float数据print(int(now))获取当前毫秒级时间戳import timenow = time.time() #返回float数据print(int(round(now * 1000)))根据周期向后向前增加或者减少天数方法一:(制定时间

2021-09-02 10:26:03 268

原创 时间序列模型相关说明和模型介绍

一、什么是时间序列?时间序列是在规律性时间间隔记录的观测值序列。依赖于观测值的频率,典型的时间序列可分为每小时、每天、每周、每月、每季度和每年为单位记录。import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/data.csv', parse_dates=['date']) df.head()二、时间序列具有4个成分,如下所示Level − It is the mea

2021-09-02 09:48:04 4192

原创 调用链相关理解和说明

调用链定义:在系统完成一次业务调用的过程中,把服务之间的调用信息(时间、接口、层次、结果)打点到日志中,然后将所有的打点数据连接为一个树状链条就产生了一个调用链。跟踪系统把过程中产生的日志信息进行分析处理,将业务端到端的执行完整的调用过程进行还原,根据不同维度进行统计分析;从而标识出有异常的服务调用,能够快速分析定界到出异常的服务;同时可根据数据统计分析系统性能瓶颈。核心概念:1、Trace:Trace是指一次请求调用的链路过程,trace id 是指这次请求调用的ID。在一次请求中,会在网络的最开

2021-09-02 09:28:50 5132 2

原创 Z-Score标准化

一、说明:Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。提高了数据可比性,削弱了数据解释性。二、公式:1、总体数据的均值(μ)2、总体数据的标准差(σ)3、个体的观测值(x)三、Z-Score的优缺点优点:1、简单,容易计算,凭借最简单的数学公式就能够计算出Z-Score并进行比较。2、Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。缺点:1、首先,估算Z

2021-09-02 09:20:14 27535 3

原创 liunx服务器和windows服务器安装CV2报错的解决方案

Linux服务器安装CV2出现的坑:一、安装安装的时候cv2,要使用pip install opencv-python二、出现的问题:问题1:>>> import cv2Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/cheung/anaconda3/lib/python3.7/site-packages/cv2/__init__.

2020-12-03 14:29:34 702 2

原创 【论文原文 | 中文版 】BERT:语言理解的深度双向变换器预训练

本文介绍一种称之为BERT的新语言表征模型,意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的语言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有层的左、右语境来预训练深度双向表征。

2020-08-27 09:14:59 1983 1

原创 Win10环境下安装Pytorch GPU版【Anconda+pycharm+pytorch+CUDA10.2+CUDNN】

Anconda环境百度网盘链接:https://pan.baidu.com/s/1UMGjOUyD_sZrLhgb27fu1A提取码:3m4v安装提示逐步下一步就可以,注意这个位置要勾选上。安装后系统会自动配置一个python3.7的环境。pycharmPycharm下载安装、破解、配置步骤一:进入官网下载对应正确的版本,这里选择专业版,专业版是收费的,社区版是免费的,社区版网盘链接:链接:https://pan.baidu.com/s/1VEobUn_67FudU3AV6JmHHg提取码:

2020-08-13 13:35:26 1790

原创 基于tensorflow.keras环境,bert模型实现分类

项目介绍:基于tensorflow.keras环境,进行酒店的消费用户的评价进行分类,使用bert进行预先使用说明:1、下载bert源代码 :https://github.com/google-research/bert (文件夹已下好,如无法调用,可自行下载)2、下载bert的预训练模型:https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip注意:Google提供了多种预训练好的ber

2020-06-12 15:12:01 594

原创 (试水阿里天池)资金流入流出预测-挑战Baseline

赛题简介通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为 。链接:https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281973.1005.5.3dd524487floHF一、数据预处理导入所需模...

2020-04-01 17:30:54 2717 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除