Data Mining
文章平均质量分 74
xiangyong58
海外Top高校博士,主要研究高效轻量化Deep-Neural-Network模型设计、压缩和可解释性,应用领域为计算机视觉、普适计算。研究项目经历:基于特定Chip的高性能DNN模型开发【AI Chip】、障碍物规避【自动驾驶应用场景】、时空大数据可视化分析【智慧交通】、数据挖掘【智慧城市领域】。
博客内容主要为“科研&学习笔记”。
展开
-
特征挖掘(四)--特征融合
基本概念在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。早融合(Early fusion): 先融合多层的特征,然后在融合后的特征上训练预测器(只在完全融合之后,才统原创 2021-05-07 14:48:48 · 1051 阅读 · 0 评论 -
特征挖掘三:主成分分析和奇异值分解
主成分分析(Principal components analysis)和奇异值分解(Singular value decomposition)在探索性数据分析和建模阶段都是非常重要的方法。当一组数据有很多变量(高维度数据),而且变量直接不独立的时候,处理数据时会非常麻烦,常需要对原始数据进行降噪和降维处理。・主成分分析常用于解决用一个精简的变量集尽可能多地展示数据集的变异性这一统计问题。・奇异值分解常用于解决用一个低秩矩阵很好地表示原始数据这一数据压缩问题。...原创 2021-04-21 15:40:31 · 330 阅读 · 0 评论 -
特征挖掘(一):问题与方法总结
(一)维数灾难(Curse of dimensionality) 维数灾难就是说当样本的维数增加时,若要保持与低维情形下相同的样本密度,所需要的样本数指数型增长。从下面的图可以直观体会一下。当维度很大样本数量少时,无法通过它们学习到有价值的知识;所以需要降维,一方面在损失的信息量可以接受的情况下获得数据的低维表示,增加样本的密度;另一方面也可以达到去噪的目的。有两种办法试图克服这个问题:首先是特征提取(Feature extraction),通过组合现有特征来达到降维的目的;然后是特征...原创 2021-04-15 16:11:34 · 1787 阅读 · 0 评论 -
特征挖掘(二):连续特征离散化方法
1定义:首先from wiki给出一个标准的连续特征离散化的定义:在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程。这在创建概率质量函数时非常有用 - 正式地,在密度估计中。它是一种离散化的形式,也可以是分组,如制作直方图。每当连续数据离散化时,总会存在一定程度的离散化误差。目标是将数量减少到手头的建模目的可忽略不计的水平。2.当前状态current status早期,诸如等宽(equal-width),等频(equal-frequen原创 2021-04-12 14:26:24 · 1322 阅读 · 0 评论 -
R 语言 ggplot2 scale_*_*()函数
1. ggplot中的scale_*_*()函数借助代码:help(package = "ggplot2")获取ggolot2中的所有函数名称,检索到scale_*_*,可以看到有近百个函数,总结下来,可以分为几个大类,分别是:scale_alpha_*() 【设置透明度】 scale_color_*() 或 scale_colour_*() 【设置边框/散点颜色】 scale_fill_*() 【设置填充颜色和图例相关内容】 scale_linetype_*() 【设置线条样式】原创 2021-04-02 13:07:39 · 6993 阅读 · 0 评论 -
图像分析一:灰度直方图和直方图均衡化
1. 灰度直方图介绍灰度直方图(Gray histogram)是关于灰度级分布的函数,是对图像中灰度级分布的统计。灰度直方图是将数字图像中的所有像素,按照灰度值的大小,统计其出现的频率。灰度直方图是灰度级的函数,它表示图像中具有某种灰度级的像素的个数,反映了图像中某种灰度出现的频率。如果将图像总像素亮度(灰度级别)看成是一个随机变量,则其分布情况就反映了图像的统计特性,这可用probability density function (PDF)来刻画和描述,表现为灰度直方图。实现以下代码便原创 2021-02-15 10:27:33 · 1148 阅读 · 0 评论 -
R语言制图之坐标轴设置axis——问题汇总
在R语言底层作图中,对坐标轴的调整主要通过调整plot函数、axis函数和title函数的一系列参数完成。plot(x,y, ...)axis(side,at = NULL, labels = TRUE, tick = TRUE, line = NA,pos= NA, outer = FALSE, font = NA, lty = "solid", lwd = 1, lwd.ticks = lwd, col = NULL,col.ticks = NULL, hadj = NA, pa...原创 2020-10-14 16:43:17 · 19896 阅读 · 0 评论 -
数据处理之 — 归一化,标准化,正则化, 不同数据区间的映射
归一化 (Normalization):属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。常用的最小最大规范化方法(x-min(x))/(max(x)-min(x))除了上述介绍的方法之外,另一种常用的方法是将属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。使用这种方法的目的包括:1、对于方差非常小的属性可以增强其稳定性。2、维持原创 2020-09-10 15:54:15 · 1642 阅读 · 0 评论 -
R语言绘制图例(legend)的各种问题_详细综合解析
一幅图解决R语言绘制图例的各种问题2016-11-01用R画图的小伙伴们有木有这样的感受,“命令写的很完整,运行没有报错,可图例藏哪去了?”“图画的很美,怎么总是图例不协调?”“啊~~啊,抓狂,图例盖住关键的点了。”“怎么才能让图例指哪站哪?” “图例太长怎么办”……吐槽吐到累,不如多掌握几个图例(Legend)的软肋,更好地利用R语言绘图。原创 2017-01-17 00:54:04 · 146915 阅读 · 11 评论 -
知识图谱进阶学习(一)
介绍:AI训练的模型,更像是一个具有统计知识的机器,从关联和概率的角度出发,试图在描述世界背后的 “真理”。然而,我们更希望的是,像人一样,具有分析和推理能力的机器智能。如果你问我,哪一种形式最接近我心中的 “人工智能”,我会说:知识图谱。知识图谱,本质上,是一种揭示实体之间关系的语义网络。演化进程:...原创 2020-03-20 21:32:58 · 323 阅读 · 0 评论 -
条件随机场 详析
条件随机场(Conditional random fields),是一种判别式图模型,因为其强大的表达能力和出色的性能,得到了广泛的应用。从最通用角度来看,CRF本质上是给定了观察值集合(observations)的马尔可夫随机场。在这里,我们直接从最通用的角度来认识和理解CRF,最后可以看到,线性CRF和所谓的高阶CRF,都是某种特定结构的CRF。1. 随机场简单地讲,随机场可...原创 2019-12-20 14:54:01 · 262 阅读 · 0 评论 -
Active learning
一种噪声鲁棒的半监督主动学习框架详细介绍:请看链接https://blog.csdn.net/Houchaoqun_XMU/article/details/102417465近年来,主动学习和半监督学习方法被广泛应用于缓解样本不足的问题。半监督学习能够在零标注成本的情况下训练模型,但由于样本伪标签的质量不高,导致模型的性能提升缓慢。主动学习方法通过获取高质量的标注样本,从而高效地提升模型...原创 2019-12-10 19:15:34 · 227 阅读 · 0 评论 -
Computer Vision 相关数据集汇总介绍
1.KITTI数据集介绍与应用KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集。该数据集包含丰富多样的传感器数据(有双目相机、64线激光雷达、GPS/IMU组合导航定位系统,基本满足对图像、点云和定位数据的需求)、大量的标定真值(包括检测2D和3D包围框、跟踪轨迹tracklet)和官方提供的一些开发...原创 2019-12-10 10:21:46 · 326 阅读 · 0 评论 -
数据分析 data analysis_Python编程问题汇总
一、python numpy加载数据loadtxt——关于TypeError: strptime() argument 1 must be str, not bytes解析在使用datetime.strptime(s,fmt)来输出结果日期结果时,出现错误TypeError: strptime() argument 1 must be str, not bytes源代码如下de...原创 2019-11-15 22:39:27 · 403 阅读 · 0 评论 -
Spearman's rank correlation coefficient 和 Pearson correlation coefficient详细
In statistics, Spearman's rank correlation coefficient or Spearman's rho, named after Charles Spearman and often denoted by the Greek letter (rho) or as , is a nonparametric measure of statistic原创 2016-04-19 13:14:18 · 7793 阅读 · 0 评论 -
数据挖掘中所需的概率论与数理统计知识
数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)原文来自:http://blog.csdn.net/v_july_v/article/details/8308762导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念转载 2016-05-01 14:42:40 · 1397 阅读 · 1 评论 -
出租车GPS轨迹数据和手机数据的研究价值
出租车GPS轨迹数据和手机数据的研究价值原文:http://www.zdor.cn/news/html/zx/234027.html作者:@高松-GISer (加州大学圣塔芭芭拉分校地理系、美国国家地理信息分析中心NCGIA at Santa Barbara) 随着信息通讯技术(Information and communica转载 2016-03-08 14:56:26 · 14777 阅读 · 0 评论 -
谷歌数据中心设计的10条“黄金法则”
谷歌数据中心设计的10条“黄金法则”发表于2013-03-11 15:08| 6778次阅读| 来源GigaOM| 36 条评论| 作者Ucilia Wang数据中心GoogleJoe Kava摘要:谷歌数据中心的副总裁Joe Kava,简述了这位搜索引擎巨头是如何考量数据中心的设计问题,文章列举了谷歌的数据中心在设计和选址的过程中所遵循的10条法则。而且,转载 2013-03-12 20:31:50 · 973 阅读 · 0 评论