代码
zhangxiaolinxin
这个作者很懒,什么都没留下…
展开
-
资金流入流出预测1
参考链接添加链接描述转载 2020-08-21 07:02:31 · 138 阅读 · 0 评论 -
python巩固之——函数与Lambda表达式
一、函数1、函数的定义函数以 def 关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回 None 。13.1.2 函数的调用【例子】【例子】def functionname(parameters): "函数_文档字符串" function_suite return [expression]2 函数的调用【例子】def printme(str): pri原创 2020-08-02 22:51:44 · 139 阅读 · 0 评论 -
NLP实践之——基于深度学习的文本分类2
文本表示方法词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:1、Skip-grams (SG):预测上下文2、Continuou原创 2020-07-31 21:48:09 · 226 阅读 · 0 评论 -
python基础巩固之——字典、集合、序列
字典可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢?两种方法:麻烦方法:用 id(X) 函数,对 X 进行某种操作,比较操作前后的 id,如果不一样,则 X 不可变,如果一样,则 X 可变。便捷方法:用 hash(X),只要不报错,证明 X 可被哈希,即不可变,反过来不可被哈希,即原创 2020-07-31 21:34:39 · 189 阅读 · 0 评论 -
python基础巩固之——列表、元组、字符串
简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class ‘dict’>集合<class ‘set’>字符串<class ‘str’>一、列表1. 列表的定义列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对象,语法为原创 2020-07-28 23:09:57 · 192 阅读 · 0 评论 -
NLP实践之——基于深度学习的文本分类1
基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。我们将介绍FastText。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层原创 2020-07-27 23:13:02 · 218 阅读 · 0 评论 -
NLP实践之——基于机器学习的文本分类
一、文本的表示方法在自然语言领域,文本是不定长的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。1、One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海构建词典:{我 爱 北 京 天 安 门原创 2020-07-26 00:43:27 · 445 阅读 · 0 评论 -
python巩固之——异常处理
异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。一、python标准异常BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:除数原创 2020-07-24 22:10:54 · 156 阅读 · 0 评论 -
python基础巩固之——条件和循环
一、条件语句if语句if expression: expr_true_suiteif 语句的 expr_true_suite 代码块只有当条件表达式 expression 结果为真时才执行,否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的 expression 条件表达式可以通过布尔操作符 and,or和not 实现多重条件判断。if - else 语句if expression: expr_true_suiteelse: expr_false_suite原创 2020-07-23 23:24:09 · 103 阅读 · 0 评论 -
NLP实践之——数据读取与分析
一、数据读取import pandas as pdtrain_df=pd.read_csv('D:/AIproject/NLP_news_paper_classific/data/train_set.csv/train_set.csv',sep='\t',nrows=100)train_df.head()二、数据分析数据分析的目的:(1)获得赛题数据中新闻文本的长度(2)获得赛题数据类别分类的分布(3)获得赛题数据字符的分布1、句子长度分析观察前5行数据可知每行句子中的字符用空格隔原创 2020-07-22 23:35:48 · 590 阅读 · 0 评论 -
NLP实践之——赛题理解
赛题链接https://tianchi.aliyun.com/competition/entrance/531810赛题理解¶赛题名称:零基础入门NLP之新闻文本分类赛题目标:熟悉NLP的预处理、模型构建和模型训练等知识。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据¶赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛原创 2020-07-20 22:49:46 · 415 阅读 · 0 评论 -
python基础巩固之——变量、运算符与数据类型
一、运算符1、算术运算符2、比较运算符3、逻辑运算符4、位运算符5、其他运算符注意:(1)is, is not 对比的是两个变量的内存地址(2)==, != 对比的是两个变量的值(3)比较的两个变量,指向的都是地址不可变的类型(str等),那么is,is not 和 ==,!= 是完全等价的。(4)对比的两个变量,指向的是地址可变的类型(list,dict,tuple等),则两者是有区别的。运算符的优先级(1)一元运算符优于二元运算符。例如3 ** -2等价于3 ** (-原创 2020-07-20 22:22:45 · 117 阅读 · 0 评论 -
【cs224n学习作业】Assignment 1 - Exploring Word Vectors
CS224N课程的第一个大作业, 主要是对词向量做了一个探索, 并直观的感受了一下词嵌入或者词向量的效果。这里简单的记录一下我探索的一个过程。分为两部分, 第一部分是基于计数的单词词向量, 而第二部分,是基于词向量的预测, 是利用了已经训练好的一个词向量矩阵去介绍一下怎么进行预测, 比如可视化这些词向量啊, 找同义词或者反义词,实现单词的类比关系等。准备工作导入要用的包import sysassert sys.version_info[0]==3assert sys.version_info[1]原创 2020-07-06 22:58:27 · 755 阅读 · 0 评论 -
机器视觉基础之——HOG特征描述算子-行人检测
一、HOG特征描述算子简介在深度学习之前非常流行的图像特征提取技术——方向梯度直方图(Histogram of Oriented Gradients),简称HOG特征。HOG特征是在2005年CVPR的会议发表,在图像手工特征提取方面具有里程碑式的意义,当时在行人检测领域获得了极大成功。学习HOG特征的思想也有助于我们很好地了解传统图像特征描述和图像识别方法。二、HOG特征简介HOG特征是一种图像局部特征,其基本思路是对图像局部的梯度幅值和方向进行投票统计,形成基于梯度特性的直方图,然后将局部特原创 2020-07-05 11:43:07 · 727 阅读 · 0 评论 -
机器视觉基础之——Haar特征描述算子-人脸检测
一、简介Haar-like特征最早是由Papageorgiou等应用于人脸表示,在2001年,Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》,在AdaBoost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,他俩不是最早使用提出小波特征的,但是他们设计了针对人脸检测更有效的特征,并对Ada原创 2020-07-02 22:33:37 · 431 阅读 · 0 评论 -
pandas练习
import numpy as npimport pandas as pddf=pd.read_csv('端午粽子数据.csv')df.head()df.shape(4403, 5)df.columnsIndex([‘标题’, ’ 价格’, ‘付款人数’, ‘店铺’, '发货地址 '], dtype=‘object’)# 去掉空格df.columns = df.columns.str.strip()# 去掉发货地址的缺失值df.dropna(axis=0, subset=['发货地.原创 2020-07-01 22:26:31 · 156 阅读 · 0 评论 -
pandas笔记之——时序数据
原创 2020-06-29 21:57:11 · 124 阅读 · 0 评论 -
机器视觉基础之——LBP特征描述算子
一、LBP特征描述算子LBP特征描述算子是指局部二值模型(Location Binary Pattern,LBP)是一种图像纹理的描述算子。改进后的LBP具有灰度不变性和旋转不变性等优点,常应用于人脸识别和目标检测。1.图像纹理特征简介...原创 2020-06-28 21:46:47 · 2110 阅读 · 0 评论 -
pandas笔记之——分类数据
原创 2020-06-27 11:08:31 · 154 阅读 · 0 评论 -
概率统计之——常见分布与假设检验
一、 一般随机变量1.1 随机变量的两种类型根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。1.2 离散型随机变量对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。假定离散型随机变量X,共有n个取值,X1X_1X1, X2X_2X2, …, XnX_nXn, 那么P(X=Xn)≥0 P(X=X_n)\geq 0 P(X=Xn)≥0Σ1nP(X=Xn)=1 \Sigma_{1}^{n} P(X原创 2020-06-26 22:21:21 · 2409 阅读 · 0 评论 -
pandas笔记之———文本数据
原创 2020-06-26 16:26:28 · 101 阅读 · 0 评论 -
概率统计之——数理统计与描述性分析
一、数理统计概念1.基本概念定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。 例如,为了研究某厂生产的一批元件质量的好坏,规定使用寿命低于1千小时的为次品,则该批元件的全体就为总体,每个元件就原创 2020-06-24 22:44:26 · 698 阅读 · 0 评论 -
NLP基础之——Introduction and Word Vectors
1、自然语言处理一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。自然语言处理的目标是让计算机处理或说“理解”自然语言,来完成有意义的任务,比如订机票、购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。2.如何表达一个词得意思3.如何在计算机中得到一个可用得词3.1WordNet一个包含同义词和上下位词列表的词原创 2020-06-24 21:39:00 · 234 阅读 · 0 评论 -
计算机视觉基础之————Harris特征点检测器-兴趣点检测
简介在图像处理领域中,特征点又被称为兴趣点或者角点,它通常具有旋转不变性和光照不变性和视角不变性等优点,是图像的重要特征之一,常被应用到目标匹配、目标跟踪、三维重建等应用中。点特征主要指图像中的明显点,如突出的角点、边缘端点、极值点等等,用于点特征提取的算子称为兴趣点提取(检测)算子,常用的有Harris角点检测、FAST特征检测、SIFT特征检测及SURF特征检测。角点使用一个滑动窗口在下面三幅图中滑动,可以得出以下结论:左图表示一个平坦区域,在各方向移动,窗口内像素值均没有太大变化;中图表示一原创 2020-06-22 22:07:29 · 583 阅读 · 0 评论 -
零基础入门CV赛事- 街景字符编码识别之赛题理解
原创 2020-05-18 21:57:52 · 239 阅读 · 0 评论 -
pandas笔记-总结之一
import pandas as pdimport numpy as npdf=pd.read_csv('2002年-2018年上海机动车拍照拍卖.csv')df.head()df['ratio']=df['Total number of license issued']/df['Total number of applicants']df[df['ratio']<0.05]....原创 2020-05-01 22:15:57 · 171 阅读 · 0 评论 -
pandas笔记-合并
数据集一、append与assignappend方法(a)利用序列添加行(必须指定name)df_append = df.loc[:3,['Gender','Height']].copy()df_appends = pd.Series({'Gender':'F','Height':188},name='new_row')df_append.append(s)(b)用Dat...原创 2020-04-29 21:46:12 · 297 阅读 · 0 评论 -
pandas学习笔记-变形
数据集:一、透视表pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:df.pivot(index='ID',columns='Gender',values='Height').head()2. pivot_table首先,再现上面的操作:pd.pivot_t...原创 2020-04-28 21:19:49 · 147 阅读 · 0 评论 -
python爬虫-腾讯新闻热点精选
1、用selenium爬取https://news.qq.com/ 的热点精选2、热点精选至少爬50个出来,存储成csv3、每一行如下:标号(从1开始),标题,链接,import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path=".\chromedriver.exe")driver.ge...原创 2020-04-27 22:12:29 · 519 阅读 · 0 评论 -
pandas学习笔记-分组
数据集df.head()一、SAC过程内涵SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构apply过程在该过程中,我们实际往往会遇到四类问题:整合(Aggregation)——即分组计算统计量(如求均值、求每组元素个数)变...原创 2020-04-26 22:41:06 · 210 阅读 · 0 评论 -
python爬虫笔记3-selenuim、session和cookie
一、seleniumselenium是什么:一个自动化测试工具(大家都是这么说的)selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以启动chrome浏览器,具体的驱动程序需要对应的驱动,在官网上...原创 2020-04-25 21:20:22 · 600 阅读 · 0 评论 -
python爬虫笔记2-Beautiful Soup、xpath、re
一、Beautiful Soup库Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持...原创 2020-04-22 23:55:35 · 858 阅读 · 0 评论 -
pandas学习笔记-索引
table_csv数据见开源https://github.com/datawhalechina/joyful-pandas/blob/master/第2章%20索引.ipynb一、单级索引loc方法、iloc方法、[]操作符####通用原则是:行用loc,列用[],位置用iloc,条件用bool/query,标量用at/iat最常用的索引方法可能就是这三类,其中iloc表示位置索引,lo...原创 2020-04-21 22:36:20 · 1035 阅读 · 0 评论 -
python爬虫笔记-1
1、网页组成网页是由 HTML 、 CSS 、JavaScript 组成的。HTML 是用来搭建整个网页的骨架,而 CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制的, JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScri...原创 2020-04-19 18:51:17 · 142 阅读 · 0 评论 -
数据分析EDA及代码实现
EDA目标(1)EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。(2)当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。(3)引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。(4)完成对于数据的探索性分析,并对于数据进行一些图表或...原创 2020-03-24 21:56:32 · 1605 阅读 · 0 评论 -
深度学习之LENET网络、AlexNet网络、VGG网络、NiN网络中的网络、GoogLeNet网络
1、LeNet 模型LeNet分为卷积层块和全连接层块两个部分。下面我们分别介绍这两个模块。 (1)卷积层块里的基本单位是卷积层后接平均池化层:卷积层用来识别图像里的空间模式,如线条和物体局部,之后的平均池化层则用来降低卷积层对位置的敏感性。(2)卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中,每个卷积层都使用5×55×5 的窗口,并在输出上使用sigmoid激活函数。第一...原创 2020-02-19 19:58:10 · 483 阅读 · 0 评论 -
pytorch代码笔记2:torch.rand、torch.randn、torch.normal、torch.cat、torch.pow
1、torch.rand(*sizes, out=None)→ Tensor均匀分布。返回一个张量,包含了从区间[0, 1)的均匀分布中抽取的一组随机数。张量的形状由参数sizes定义。参数:sizes (int…) - 整数序列,定义了输出张量的形状 out (Tensor, optinal) - 结果张量2、torch.randn(*sizes, out=None)→ Te...原创 2020-02-15 18:59:22 · 713 阅读 · 0 评论 -
pytorch代码笔记1-np.random.normal()
python中numpy.random.normal(loc=0,scale=1e-2,size=shape) ,意义如下: 参数loc(float):正态分布的均值,对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布, 参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。 参数size(int...原创 2020-02-11 21:07:17 · 1202 阅读 · 1 评论