zhangxiaolinxin-CSDN博客

原创金融风控之-建模与调参

逻辑回归模型:a. 理解逻辑回归模型; b. 逻辑回归模型的应用; c. 逻辑回归的优缺点;树模型:a. 理解树模型;b. 树模型的应用;c. 树模型的优缺点; 3. 集成模型参调与模建绍介容内标目习学a. 基于bagging思想的集成模型随机森林模型b. 基于boosting思想的集成模型 XGBoost模型LightGBM模型CatBoost模型 4. 模型对比与性能评估:a. 回归模型/树模型/集成模型; b. 模型评估方法;c. 模型评价结果;模型调参:a. 贪心.

2020-09-25 09:14:22 308

原创金融风控之-特征工程

数据预处理:a. 缺失值的填充b. 时间格式处理c. 对象类型特征转换到数值 2. 异常值处理:a. 基于3segama原则b. 基于箱型图 3. 数据分箱a. 固定宽度分箱 b. 分位数分箱离散数值型数据分箱连续数值型数据分箱程工征特绍介容内标目习学c. 卡方分箱(选做作业) 4. 特征交互a. 特征和特征之间组合b. 特征和特征之间衍生c. 其他特征衍生的尝试(选做作业)特征编码a. one-hot编码b. label-encode编码 6. 特征选择a. 1 F.

2020-09-21 23:08:33 429

原创金融风控之EDA

1、数据读取pandas2、数据概况info（）describe（）shape3、数据特征类型类别型数值型4、缺失值isnull.sum（）5、异常值箱型图分析6、单变量分布情况由于个人原因，后面会详细写

2020-09-19 08:33:39 468

原创金融风控-贷款违约预测之赛题理解

1、概况赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。2、数据id 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限（year）interestRate 贷款利率inst

2020-09-14 21:01:52 615

转载资金流入流出预测1

参考链接添加链接描述

2020-08-21 07:02:31 201

原创 python巩固之——函数与Lambda表达式

一、函数1、函数的定义函数以 def 关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回 None 。13.1.2 函数的调用【例子】【例子】def functionname(parameters): "函数_文档字符串" function_suite return [expression]2 函数的调用【例子】def printme(str): pri

2020-08-02 22:51:44 210

原创 NLP实践之——基于深度学习的文本分类2

文本表示方法词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）。word2vec的主要思路：通过单词和上下文彼此预测，对应的两个算法分别为：1、Skip-grams (SG)：预测上下文2、Continuou

2020-07-31 21:48:09 362

原创 python基础巩固之——字典、集合、序列

字典可变类型与不可变类型序列是以连续的整数为索引，与此不同的是，字典以"关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值。字典是 Python 唯一的一个映射类型，字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢？两种方法：麻烦方法：用 id(X) 函数，对 X 进行某种操作，比较操作前后的 id，如果不一样，则 X 不可变，如果一样，则 X 可变。便捷方法：用 hash(X)，只要不报错，证明 X 可被哈希，即不可变，反过来不可被哈希，即

2020-07-31 21:34:39 247

原创 python基础巩固之——列表、元组、字符串

简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class ‘dict’>集合<class ‘set’>字符串<class ‘str’>一、列表1. 列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的 Python 对象，语法为

2020-07-28 23:09:57 320

原创 NLP实践之——基于深度学习的文本分类1

基于深度学习的文本分类与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。深度学习也可以用于文本表示，还可以将其映射到一个低纬空间。其中比较典型的例子有：FastText、Word2Vec和Bert。我们将介绍FastText。FastTextFastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层

2020-07-27 23:13:02 308

原创 NLP实践之——基于机器学习的文本分类

一、文本的表示方法在自然语言领域，文本是不定长的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。1、One-hot这里的One-hot与数据挖掘任务中的操作是一致的，即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。One-hot表示方法的例子如下：句子1：我爱北京天安门句子2：我喜欢上海构建词典：{我爱北京天安门

2020-07-26 00:43:27 550

原创 python巩固之——异常处理

异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型，某种错误引发对应的异常时，异常处理程序将被启动，从而恢复程序的正常运行。一、python标准异常BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有的内建标准异常的基类ArithmeticError：所有数值计算异常的基类FloatingPointError：浮点计算异常OverflowError：数值运算超出最大限制ZeroDivisionError：除数

2020-07-24 22:10:54 227

原创 python基础巩固之——条件和循环

一、条件语句if语句if expression: expr_true_suiteif 语句的 expr_true_suite 代码块只有当条件表达式 expression 结果为真时才执行，否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的 expression 条件表达式可以通过布尔操作符 and，or和not 实现多重条件判断。if - else 语句if expression: expr_true_suiteelse: expr_false_suite

2020-07-23 23:24:09 169

原创 NLP实践之——数据读取与分析

一、数据读取import pandas as pdtrain_df=pd.read_csv('D:/AIproject/NLP_news_paper_classific/data/train_set.csv/train_set.csv',sep='\t',nrows=100)train_df.head()二、数据分析数据分析的目的：（1）获得赛题数据中新闻文本的长度（2）获得赛题数据类别分类的分布（3）获得赛题数据字符的分布1、句子长度分析观察前5行数据可知每行句子中的字符用空格隔

2020-07-22 23:35:48 694

原创 NLP实践之——赛题理解

赛题链接https://tianchi.aliyun.com/competition/entrance/531810赛题理解¶赛题名称：零基础入门NLP之新闻文本分类赛题目标：熟悉NLP的预处理、模型构建和模型训练等知识。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。赛题数据¶赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛

2020-07-20 22:49:46 499

原创 python基础巩固之——变量、运算符与数据类型

一、运算符1、算术运算符2、比较运算符3、逻辑运算符4、位运算符5、其他运算符注意：（1）is, is not 对比的是两个变量的内存地址（2）==, != 对比的是两个变量的值（3）比较的两个变量，指向的都是地址不可变的类型（str等），那么is，is not 和 ==，！= 是完全等价的。（4）对比的两个变量，指向的是地址可变的类型（list，dict，tuple等），则两者是有区别的。运算符的优先级（1）一元运算符优于二元运算符。例如3 ** -2等价于3 ** (-

2020-07-20 22:22:45 172

原创【cs224n学习作业】Assignment 1 - Exploring Word Vectors

CS224N课程的第一个大作业，主要是对词向量做了一个探索，并直观的感受了一下词嵌入或者词向量的效果。这里简单的记录一下我探索的一个过程。分为两部分，第一部分是基于计数的单词词向量，而第二部分，是基于词向量的预测，是利用了已经训练好的一个词向量矩阵去介绍一下怎么进行预测，比如可视化这些词向量啊，找同义词或者反义词，实现单词的类比关系等。准备工作导入要用的包import sysassert sys.version_info[0]==3assert sys.version_info[1]

2020-07-06 22:58:27 883

原创机器视觉基础之——HOG特征描述算子-行人检测

一、HOG特征描述算子简介在深度学习之前非常流行的图像特征提取技术——方向梯度直方图（Histogram of Oriented Gradients），简称HOG特征。HOG特征是在2005年CVPR的会议发表，在图像手工特征提取方面具有里程碑式的意义，当时在行人检测领域获得了极大成功。学习HOG特征的思想也有助于我们很好地了解传统图像特征描述和图像识别方法。二、HOG特征简介HOG特征是一种图像局部特征，其基本思路是对图像局部的梯度幅值和方向进行投票统计，形成基于梯度特性的直方图，然后将局部特

2020-07-05 11:43:07 854

原创 NLP基础之——Contextual Word Representations and Pretraining

一、ELMOELMO的基本思想是利用双向的LSTM结构，对于某个语言模型的目标，在大量文本上进行预训练，从LSTM layer中得到contextual embedding，其中较低层的LSTM代表了比较简单的语法信息，而上层的LSTM捕捉的是依赖于上下文的语义信息。ELMO的全称就是Embeddings from Language Models。对于下游的任务，再将这些不同层的向量线性组合，再做监督学习。ELMo算法过程为：先在大语料上以language model为目标训练出bidirectio

2020-07-03 22:34:39 443

原创机器视觉基础之——Haar特征描述算子-人脸检测

一、简介Haar-like特征最早是由Papageorgiou等应用于人脸表示，在2001年，Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》，在AdaBoost算法的基础上，使用Haar-like小波特征和积分图方法进行人脸检测，他俩不是最早使用提出小波特征的，但是他们设计了针对人脸检测更有效的特征，并对Ada

2020-07-02 22:33:37 619

原创 pandas练习

import numpy as npimport pandas as pddf=pd.read_csv('端午粽子数据.csv')df.head()df.shape(4403, 5)df.columnsIndex([‘标题’, ’ 价格’, ‘付款人数’, ‘店铺’, '发货地址 '], dtype=‘object’)# 去掉空格df.columns = df.columns.str.strip()# 去掉发货地址的缺失值df.dropna(axis=0, subset=['发货地.

2020-07-01 22:26:31 205

原创 NLP基础之——Subword Model

一、word-level Model（基于词级模型）使用基于单词的模型时需要处理规模庞大的词汇表，例如Word2Vec和 glove，是利用word embedding的方法来得到每一个word的vec，这种方法需要去处理规模庞大的词汇表。这种方式虽然效果不错，但是对于单词而言，只要稍微做些改变就是另一个单词了。存在的一些问题：1.容易出现单词不存在于词汇库中的情况，也就是 OOV(out-of-vocabulary)2.非正式拼写3.拼写错误4.对名字和地名的音译二、Character-L

2020-06-30 23:26:02 2361

原创概率统计之——方差分析

方差分析1. 概要方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时，对因变量的影响是否是显著的。方差分析的方法是由20世纪的统计学家Ronald Aylmer Fisher在1918年到1925年之间提出并陆续完善起来的，该方法刚开始是用于解决田间实验的数据分析问题，因此，方差分析的学习是和实验设计、实验数据的分析密不可分的。实验设计和方差分析都有自己相应的语言。因此，在这里我们通过一个焦虑症治疗的实例，先了解一些术语，并且思考一下，方差分析主要用于解

2020-06-29 23:02:08 1391

原创 pandas笔记之——时序数据

2020-06-29 21:57:11 184

原创机器视觉基础之——LBP特征描述算子

一、LBP特征描述算子LBP特征描述算子是指局部二值模型（Location Binary Pattern，LBP）是一种图像纹理的描述算子。改进后的LBP具有灰度不变性和旋转不变性等优点，常应用于人脸识别和目标检测。1.图像纹理特征简介...

2020-06-28 21:46:47 2376

原创 NLP基础之——Word Vectors and Word Senses

一、word2vec1.概述字面理解为词到向量的方法，即word to vector，实质上word2vector是使用一层神经网络将one—hot形式的词向量映射到分布式形式的词向量。在训练技巧上使用了负采样（negative sampling）和分层（Hierarchical）softmax的技巧。2.算法流程第一步：将one-hot形式的词向量输入到单层神经网络中，其中输入层的神经元结点个数应该和one-hot形式的词向量维数相对应。第二步：通过神经网络中的映射层中的激活函数，计算目标单词

2020-06-27 19:52:18 668

原创 pandas笔记之——分类数据

2020-06-27 11:08:31 215

原创概率统计之——常见分布与假设检验

一、一般随机变量1.1 随机变量的两种类型根据随机变量可能取值的个数分为离散型（取值有限）和连续型（取值无限）两类。1.2 离散型随机变量对于离散型随机变量，使用概率质量函数（probability mass function），简称PMF，来描述其分布律。假定离散型随机变量X，共有n个取值，X1X_1X1, X2X_2X2, …, XnX_nXn, 那么P(X=Xn)≥0 P(X=X_n)\geq 0 P(X=Xn)≥0Σ1nP(X=Xn)=1 \Sigma_{1}^{n} P(X

2020-06-26 22:21:21 2821

原创 pandas笔记之———文本数据

2020-06-26 16:26:28 155

原创概率统计之——数理统计与描述性分析

一、数理统计概念1.基本概念定义：在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。例如，为了研究某厂生产的一批元件质量的好坏，规定使用寿命低于1千小时的为次品，则该批元件的全体就为总体，每个元件就

2020-06-24 22:44:26 921

原创 NLP基础之——Introduction and Word Vectors

1、自然语言处理一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分（人工智能还包括计算机视觉等），但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统，但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言，来完成有意义的任务，比如订机票、购物或QA等。完全理解和表达语言是极其困难的，完美的语言理解等效于实现人工智能。2.如何表达一个词得意思3.如何在计算机中得到一个可用得词3.1WordNet一个包含同义词和上下位词列表的词

2020-06-24 21:39:00 308

原创计算机视觉基础之————Harris特征点检测器-兴趣点检测

简介在图像处理领域中，特征点又被称为兴趣点或者角点，它通常具有旋转不变性和光照不变性和视角不变性等优点，是图像的重要特征之一，常被应用到目标匹配、目标跟踪、三维重建等应用中。点特征主要指图像中的明显点，如突出的角点、边缘端点、极值点等等，用于点特征提取的算子称为兴趣点提取（检测）算子，常用的有Harris角点检测、FAST特征检测、SIFT特征检测及SURF特征检测。角点使用一个滑动窗口在下面三幅图中滑动，可以得出以下结论：左图表示一个平坦区域，在各方向移动，窗口内像素值均没有太大变化；中图表示一

2020-06-22 22:07:29 912

原创 pandas笔记-缺失数据

2020-06-22 11:48:49 326 2

原创概率统计之——随机事件与随机变量

一、随机事件1.1 基本概念释义现实生活中，一个动作或一件事情，在一定条件下，所得的结果不能预先完全确定，而只能确定是多种可能结果中的一种，称这种现象为随机现象例如，抛掷一枚硬币，其结果有可能是出现正面，也有可能是出现反面；掷骰子游戏中，出现的数字可能是1,2,3,4,5,6其中的任意一个。以上这些现象都是随机现象。使随机现象得以实现和对它观察的全过程称为随机试验，记为**EEE。随机实验满足以下三个条件: 1. 可以在相同条件下重复进行；2. 结果有多种可能性，并且所有可能结果事先已知；3.

2020-06-22 11:43:45 840

原创零基础入门cv之模型集成

一、集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boosting，同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期，如果硬件设备不允许建议选取留出法，如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证，训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行集成：对预测的结果的概率值进行平均，然后解码为具体字符；对预测的字符进行投票，得到最终字符。二、深

2020-06-02 21:19:00 287

原创零基础入门CV之模型训练与验证

1、验证集的构造在数据挖掘竞赛中一般给出的数据有两种，一种是直接给出训练集、验证集和测试集，另一种是只给出训练集和测试机，就需要我们自己来划分验证机。为什么要划分验证集呢？因为在数据分析过程中，模型如果只利用训练集进行训练，就很有可能导致过拟合，也就是说模型对训练集的分布及细节学习的很到位，导致对于从没有见过的测试集就比较差，故模型的泛化能力就很差。为了解决该问题，需要构建一个与测试集具有大体相同分布和细节的数据集，降低模型过拟合，提高模型泛化能力，该数据集称为验证集。常用验证集的构造方法（1）

2020-05-30 23:03:14 976

原创字符识别模型

一、CNN简介卷积神经网络（简称CNN）是一种特殊的人工神经网络，是深度学习的一个重要分支。CNN的每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作得到下一次的输入。随着网络层的增加，卷积核会逐渐扩大感受野并缩减图像的尺寸。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。二、CNN的发展随着网络结构的发展，研究人员最初发现网络模型结构越深、网络参数越多糢型的精度更优。比较典型的是AlexN

2020-05-26 21:48:12 858

空空如也

空空如也