理论
zhangxiaolinxin
这个作者很懒,什么都没留下…
展开
-
NLP实践之——基于深度学习的文本分类2
文本表示方法词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:1、Skip-grams (SG):预测上下文2、Continuou原创 2020-07-31 21:48:09 · 242 阅读 · 0 评论 -
python基础巩固之——列表、元组、字符串
简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class ‘dict’>集合<class ‘set’>字符串<class ‘str’>一、列表1. 列表的定义列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对象,语法为原创 2020-07-28 23:09:57 · 192 阅读 · 0 评论 -
NLP实践之——基于深度学习的文本分类1
基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。我们将介绍FastText。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层原创 2020-07-27 23:13:02 · 219 阅读 · 0 评论 -
NLP实践之——基于机器学习的文本分类
一、文本的表示方法在自然语言领域,文本是不定长的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。1、One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海构建词典:{我 爱 北 京 天 安 门原创 2020-07-26 00:43:27 · 449 阅读 · 0 评论 -
NLP实践之——赛题理解
赛题链接https://tianchi.aliyun.com/competition/entrance/531810赛题理解¶赛题名称:零基础入门NLP之新闻文本分类赛题目标:熟悉NLP的预处理、模型构建和模型训练等知识。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据¶赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛原创 2020-07-20 22:49:46 · 417 阅读 · 0 评论 -
python基础巩固之——变量、运算符与数据类型
一、运算符1、算术运算符2、比较运算符3、逻辑运算符4、位运算符5、其他运算符注意:(1)is, is not 对比的是两个变量的内存地址(2)==, != 对比的是两个变量的值(3)比较的两个变量,指向的都是地址不可变的类型(str等),那么is,is not 和 ==,!= 是完全等价的。(4)对比的两个变量,指向的是地址可变的类型(list,dict,tuple等),则两者是有区别的。运算符的优先级(1)一元运算符优于二元运算符。例如3 ** -2等价于3 ** (-原创 2020-07-20 22:22:45 · 118 阅读 · 0 评论 -
机器视觉基础之——HOG特征描述算子-行人检测
一、HOG特征描述算子简介在深度学习之前非常流行的图像特征提取技术——方向梯度直方图(Histogram of Oriented Gradients),简称HOG特征。HOG特征是在2005年CVPR的会议发表,在图像手工特征提取方面具有里程碑式的意义,当时在行人检测领域获得了极大成功。学习HOG特征的思想也有助于我们很好地了解传统图像特征描述和图像识别方法。二、HOG特征简介HOG特征是一种图像局部特征,其基本思路是对图像局部的梯度幅值和方向进行投票统计,形成基于梯度特性的直方图,然后将局部特原创 2020-07-05 11:43:07 · 728 阅读 · 0 评论 -
NLP基础之——Contextual Word Representations and Pretraining
一、ELMOELMO的基本思想是利用双向的LSTM结构,对于某个语言模型的目标,在大量文本上进行预训练,从LSTM layer中得到contextual embedding,其中较低层的LSTM代表了比较简单的语法信息,而上层的LSTM捕捉的是依赖于上下文的语义信息。ELMO的全称就是Embeddings from Language Models。对于下游的任务,再将这些不同层的向量线性组合,再做监督学习。ELMo算法过程为:先在大语料上以language model为目标训练出bidirectio原创 2020-07-03 22:34:39 · 337 阅读 · 0 评论 -
机器视觉基础之——Haar特征描述算子-人脸检测
一、简介Haar-like特征最早是由Papageorgiou等应用于人脸表示,在2001年,Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》,在AdaBoost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,他俩不是最早使用提出小波特征的,但是他们设计了针对人脸检测更有效的特征,并对Ada原创 2020-07-02 22:33:37 · 433 阅读 · 0 评论 -
pandas练习
import numpy as npimport pandas as pddf=pd.read_csv('端午粽子数据.csv')df.head()df.shape(4403, 5)df.columnsIndex([‘标题’, ’ 价格’, ‘付款人数’, ‘店铺’, '发货地址 '], dtype=‘object’)# 去掉空格df.columns = df.columns.str.strip()# 去掉发货地址的缺失值df.dropna(axis=0, subset=['发货地.原创 2020-07-01 22:26:31 · 156 阅读 · 0 评论 -
NLP基础之——Subword Model
一、word-level Model(基于词级模型)使用基于单词的模型时需要处理规模庞大的词汇表,例如Word2Vec和 glove,是利用word embedding的方法来得到每一个word的vec,这种方法需要去处理规模庞大的词汇表。这种方式虽然效果不错,但是对于单词而言,只要稍微做些改变就是另一个单词了。存在的一些问题:1.容易出现单词不存在于词汇库中的情况,也就是 OOV(out-of-vocabulary)2.非正式拼写3.拼写错误4.对名字和地名的音译二、Character-L原创 2020-06-30 23:26:02 · 2178 阅读 · 0 评论 -
概率统计之——方差分析
方差分析1. 概要方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时,对因变量的影响是否是显著的。方差分析的方法是由20世纪的统计学家Ronald Aylmer Fisher在1918年到1925年之间提出并陆续完善起来的,该方法刚开始是用于解决田间实验的数据分析问题,因此,方差分析的学习是和实验设计、实验数据的分析密不可分的。实验设计和方差分析都有自己相应的语言。因此,在这里我们通过一个焦虑症治疗的实例,先了解一些术语,并且思考一下,方差分析主要用于解原创 2020-06-29 23:02:08 · 1089 阅读 · 0 评论 -
pandas笔记之——时序数据
原创 2020-06-29 21:57:11 · 124 阅读 · 0 评论 -
机器视觉基础之——LBP特征描述算子
一、LBP特征描述算子LBP特征描述算子是指局部二值模型(Location Binary Pattern,LBP)是一种图像纹理的描述算子。改进后的LBP具有灰度不变性和旋转不变性等优点,常应用于人脸识别和目标检测。1.图像纹理特征简介...原创 2020-06-28 21:46:47 · 2116 阅读 · 0 评论 -
NLP基础之——Word Vectors and Word Senses
一、word2vec1.概述字面理解为词到向量的方法,即word to vector,实质上word2vector是使用一层神经网络将one—hot形式的词向量映射到分布式形式的词向量。在训练技巧上使用了负采样(negative sampling)和分层(Hierarchical)softmax的技巧。2.算法流程第一步:将one-hot形式的词向量输入到单层神经网络中,其中输入层的神经元结点个数应该和one-hot形式的词向量维数相对应。第二步:通过神经网络中的映射层中的激活函数,计算目标单词原创 2020-06-27 19:52:18 · 541 阅读 · 0 评论 -
pandas笔记之——分类数据
原创 2020-06-27 11:08:31 · 157 阅读 · 0 评论 -
概率统计之——常见分布与假设检验
一、 一般随机变量1.1 随机变量的两种类型根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。1.2 离散型随机变量对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。假定离散型随机变量X,共有n个取值,X1X_1X1, X2X_2X2, …, XnX_nXn, 那么P(X=Xn)≥0 P(X=X_n)\geq 0 P(X=Xn)≥0Σ1nP(X=Xn)=1 \Sigma_{1}^{n} P(X原创 2020-06-26 22:21:21 · 2426 阅读 · 0 评论 -
pandas笔记之———文本数据
原创 2020-06-26 16:26:28 · 101 阅读 · 0 评论 -
概率统计之——数理统计与描述性分析
一、数理统计概念1.基本概念定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。 例如,为了研究某厂生产的一批元件质量的好坏,规定使用寿命低于1千小时的为次品,则该批元件的全体就为总体,每个元件就原创 2020-06-24 22:44:26 · 710 阅读 · 0 评论 -
NLP基础之——Introduction and Word Vectors
1、自然语言处理一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言,来完成有意义的任务,比如订机票、购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。2.如何表达一个词得意思3.如何在计算机中得到一个可用得词3.1WordNet一个包含同义词和上下位词列表的词原创 2020-06-24 21:39:00 · 235 阅读 · 0 评论 -
计算机视觉基础之————Harris特征点检测器-兴趣点检测
简介在图像处理领域中,特征点又被称为兴趣点或者角点,它通常具有旋转不变性和光照不变性和视角不变性等优点,是图像的重要特征之一,常被应用到目标匹配、目标跟踪、三维重建等应用中。点特征主要指图像中的明显点,如突出的角点、边缘端点、极值点等等,用于点特征提取的算子称为兴趣点提取(检测)算子,常用的有Harris角点检测、FAST特征检测、SIFT特征检测及SURF特征检测。角点使用一个滑动窗口在下面三幅图中滑动,可以得出以下结论:左图表示一个平坦区域,在各方向移动,窗口内像素值均没有太大变化;中图表示一原创 2020-06-22 22:07:29 · 597 阅读 · 0 评论 -
pandas笔记-缺失数据
原创 2020-06-22 11:48:49 · 205 阅读 · 2 评论 -
概率统计之——随机事件与随机变量
一、随机事件1.1 基本概念释义现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象例如,抛掷一枚硬币,其结果有可能是出现正面,也有可能是出现反面;掷骰子游戏中,出现的数字可能是1,2,3,4,5,6其中的任意一个。以上这些现象都是随机现象。使随机现象得以实现和对它观察的全过程称为随机试验,记为**EEE。随机实验满足以下三个条件: 1. 可以在相同条件下重复进行;2. 结果有多种可能性,并且所有可能结果事先已知;3.原创 2020-06-22 11:43:45 · 596 阅读 · 0 评论 -
零基础入门cv之模型集成
一、集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证,训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行集成:对预测的结果的概率值进行平均,然后解码为具体字符;对预测的字符进行投票,得到最终字符。二、深原创 2020-06-02 21:19:00 · 219 阅读 · 0 评论 -
零基础入门CV赛事- 街景字符编码识别之赛题理解
原创 2020-05-18 21:57:52 · 241 阅读 · 0 评论 -
机器学习基础-支持向量机SVM
SVM-统计学习基础最小间距超平面:所有样本到平面的距离最小。距离度量有函数间隔和几何间隔,函数间隔与法向量w和b有关,w变为2w则函数间距变大了,于是提出了几何距离,就是对w处理,除以∣∣w∣∣,除以向量长度,从而让几何距离不受影响。但是支持向量机提出了最大间隔分离超平面,这似乎与上面的分析相反,其实这个最大间隔是个什么概念呢?通过公式来分析一下,正常我们假设超平面公式是:也就是说对于...转载 2020-04-30 22:43:19 · 209 阅读 · 0 评论 -
pandas笔记-合并
数据集一、append与assignappend方法(a)利用序列添加行(必须指定name)df_append = df.loc[:3,['Gender','Height']].copy()df_appends = pd.Series({'Gender':'F','Height':188},name='new_row')df_append.append(s)(b)用Dat...原创 2020-04-29 21:46:12 · 298 阅读 · 0 评论 -
pandas学习笔记-变形
数据集:一、透视表pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:df.pivot(index='ID',columns='Gender',values='Height').head()2. pivot_table首先,再现上面的操作:pd.pivot_t...原创 2020-04-28 21:19:49 · 148 阅读 · 0 评论 -
机器学习基础-EM
转载于https://www.cnblogs.com/pinard/p/6912636.htmlEM算法原理EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。EM算法要解决的问题 我们经常会从样本观察数据中,...转载 2020-04-26 23:01:06 · 154 阅读 · 0 评论 -
pandas学习笔记-分组
数据集df.head()一、SAC过程内涵SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构apply过程在该过程中,我们实际往往会遇到四类问题:整合(Aggregation)——即分组计算统计量(如求均值、求每组元素个数)变...原创 2020-04-26 22:41:06 · 210 阅读 · 0 评论 -
python爬虫笔记3-selenuim、session和cookie
一、seleniumselenium是什么:一个自动化测试工具(大家都是这么说的)selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以启动chrome浏览器,具体的驱动程序需要对应的驱动,在官网上...原创 2020-04-25 21:20:22 · 605 阅读 · 0 评论 -
机器学习基础-2-贝叶斯
一、相关概念1.生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔...原创 2020-04-23 21:46:45 · 607 阅读 · 0 评论 -
python爬虫笔记2-Beautiful Soup、xpath、re
一、Beautiful Soup库Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持...原创 2020-04-22 23:55:35 · 865 阅读 · 0 评论 -
pandas学习笔记-索引
table_csv数据见开源https://github.com/datawhalechina/joyful-pandas/blob/master/第2章%20索引.ipynb一、单级索引loc方法、iloc方法、[]操作符####通用原则是:行用loc,列用[],位置用iloc,条件用bool/query,标量用at/iat最常用的索引方法可能就是这三类,其中iloc表示位置索引,lo...原创 2020-04-21 22:36:20 · 1037 阅读 · 0 评论 -
机器学习算法基础-1-线性回归
开源地址:https://github.com/datawhalechina/team-learning/tree/master/机器学习算法基础一、线性回归的原理1.线性回归的一般形式:有数据集,其中,其中n表示变量的数量,d表示每个变量的维度。可以用以下函数来描述y和x之间的关系:如何来确定????的值,使得????(????) 尽可能接近y的值呢?均方误差是回归中常用的性能度量,即:我们可...原创 2020-04-21 21:10:52 · 201 阅读 · 0 评论 -
python爬虫笔记-1
1、网页组成网页是由 HTML 、 CSS 、JavaScript 组成的。HTML 是用来搭建整个网页的骨架,而 CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制的, JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScri...原创 2020-04-19 18:51:17 · 142 阅读 · 0 评论 -
pandas学习笔记-基础
一、文件读取与写入1.读取csv格式:df = pd.read_csv(‘文件路径/table.csv’)txt格式:df_txt = pd.read_table(‘文件路径/table.txt’) #可设置sep分隔符参数xls或xlsx格式:df_excel = pd.read_excel(‘文件路径/table.xlsx’)#需要安装xlrd包2.写入csv格式:df.to_c...原创 2020-04-19 14:00:13 · 101 阅读 · 0 评论 -
模型融合的方法
目标:对于多种调参完成的模型进行模型融合简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。boosting/bagging(在xgboost,Ada...原创 2020-04-04 21:50:19 · 415 阅读 · 0 评论 -
模型调参的三种常用方法
模型调参的三种常用方法:1.贪心算法(1)概念:所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,它所做出的仅仅是在某种意义上的局部最优解。贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性(即某个状态以后的过程不会影响以前的状态,只与当前...原创 2020-04-01 21:45:46 · 9476 阅读 · 0 评论 -
数据分析之特征工程
数据分析之特征工程1.特征工程目标对于特征进行进一步分析,并对于数据进行处理完成对于特征工程的分析,并对于数据进行一些图表或者文字总结2.常见的特征工程包括:1. 异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2. 特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,...原创 2020-03-28 21:10:41 · 435 阅读 · 0 评论