自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 数据的探索性分析EDA task2

1.内容介绍:在EDA步骤的主要内容如下(电脑安装pandas_profiling一直出问题,后续再找找原因):数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据

2020-09-20 23:41:46 132

原创 NLP task1

Introduction and Word VectorsHuman language and word meaningHow do we represent the meaning of a word?signifier(symbol)⇔signified(idea or thing)How do we have usable meaning in a computer?一般用:Wordnet(包含同义词集和上位词的一个巨大词典)对应在计算机中的表达方式为: one-hot vector缺

2020-06-24 22:38:30 136

原创 task3 CNN介绍及pytorch实现

CNN介绍卷积神经网络(Convolutional Neural Network,CNN)是一类特殊的神经网络。同全连接神经网络等不同的是,卷积神经网络直接对二维数据乃至三维等高维数据进行处理,并且具有更高的计算精度和速度。CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野,并缩减图像的尺寸。尤其是在计算机视觉领域,CNN的应用非常广泛,使其成为了解决图像分类、图像检索、目标检测、语义分割的主流模型。CNN是一种层次模型,输

2020-05-27 19:56:09 197

原创 CV02-数据读取与扩增

数据读取要是别字符,首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。PillowPillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取和处理的操作,而且可以与ipython notebook无缝集成,是应用比较广泛的库。Pillow基于PIL,PIL是一个函式库,提供了几个操作图像的标准程序。它是一个功能强大的函式库,但自2011年以来就没有太多的更新,并且不支持Python3。Pillo

2020-05-23 23:49:53 311

原创 DW街景字符编码识别-赛题理解

先简单写写,回头补,助教不用看了惹项目介绍此次项目为datawhale和阿里天池合作举办的cv入门赛事街道字符识别,采用深度学习模型。该任务较早见于花书的作者古德费洛在12-13年在谷歌做出的研究。当时谷歌需要对极大的街景门牌号图片数据集进行数字提取以使每一个地点能在谷歌地图上有正确的门牌号信息。这样一个转码项目必然要消耗极大的人力物力,因此当时采用深度学习模型来实现自动转码,并最终取得了98%的覆盖率,大幅提高效率。本菜鸡对于深度学习以及CV一窍不通,所以先从了解啥是深度学习以及计算机视觉开始,参

2020-05-21 00:12:19 241 1

原创 SVM支持向量机

写的太水了,先提交,趁着五一疯狂改,助教就不用看了浪费时间简介SVM,Support Vector Machine,一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。要点:找到一条分界线(二维)或一条流形(高维),从而达到分类的目的。使用最靠近分界线的点作为support vectors。分类:Ha...

2020-05-01 23:00:37 180

原创 Pandas-合并

Datawhale的作业问题【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。【问题二】 merge_ordered和merge_asof的作用是什么?和merge是什么关系?【问题三】 请构造一个多级索引与多级索引合并的例子,尝试使用不同的合并函数。【问题四】 上文提到了连接的笛卡...

2020-05-01 11:53:22 157

原创 python调用函数加括号与不加括号有什么区别?

带括号的是函数调用,直接执行函数;不带括号的是绑定事件,事件触发再执行。复杂点说,带括号的是把返回值赋值给事件,不带括号的是把函数体所在地址位置赋值给事件,比如df.shape。def test(data): return dataif __name__ == '__main__': a = test print a # 不带括号调用的结果:<f...

2020-04-20 19:43:38 1375

原创 菜鸟的数据挖掘实战(二)-数据的探索性分析EDA

学习框架:零基础入门数据挖掘-菜鸟的学习路径这是一个菜鸟的数据挖掘实战记录,目的是快速入门数据挖掘,少走弯路。内容上,由于自己的确是菜得不行,所以在跟随入门级比赛:二手车价格预测进行实战中,会重点叙述学习方法和思路,并补充其他学习资料。内容预计分为六篇正文,本篇是第二篇正文:数据的探索性分析(Exploratory Data Analysis),上一篇我们了解了赛题和数据挖掘流程(“捏泥人...

2020-04-19 21:49:50 457

原创 菜鸟的数据挖掘实战(一)赛题理解“捏泥人”

学习路径:零基础入门数据挖掘-菜鸟的学习路径这是一个菜鸟的数据挖掘实战记录,目的是在尽量短的时间内入门数据挖掘,少走弯路。内容上,由于自己的确是菜得不行,所以除了必要的二手车价格预测比赛相关编码外,会重点叙述学习方法和思路,并补充其他学习资料。内容预计分为六篇正文,本篇是第一篇正文,介绍赛题讲解与具体学习方法。1. 学习重点2.赛题理解赛题概况要求通过给定的二手车数据集,预测二手车...

2020-04-10 15:29:41 489

原创 菜鸟的数据挖掘实战-学习路径

目录1. 前言2. 学习路径3. 学习方法其他1. 前言这是一个菜鸟的数据挖掘实战记录,目的是在尽量短的时间内入门数据挖掘,少走弯路。内容上,由于自己的确是菜得不行,所以除了必要的编码外,会重点叙述学习方法和思路,并补充其他学习资料。内容预计分为六篇正文,本篇是前言,介绍基础知识和学习框架。学习方法是有共性的,希望我的学习过程可以帮到其他对数据挖掘感兴趣的小伙伴。2. 学习路径数据挖掘...

2020-04-09 14:38:19 317

原创 python安装包失败/pip版本过低

在安装其他包时被告知pip版本太低无法安装,需要先升级pip,但是死活升级不了,穷遍全站找到了两大解决方案,是最常见的两种情况,完美解决了我的问题,希望也可以帮到你。第一种:下载超时错误代码显示如下:Traceback (most recent call last):File "d:\setup\python\python3.7\lib\site-packages\pip\_vendor\...

2020-04-01 21:34:52 1331

原创 【全】Jupyter Notebook更改默认启动路径

需求:Jupyter Notebook默认打开的文件夹不是想要的,希望替换成另一个。可用方法方法一:在目标文件夹位置启动适用于:每次在不同位置打开notebook按住shift+右键,点“在此处打开命令窗口”打开的cmd就是这个路径,然后运行jupyter notebook就行了。方法二:使用快捷方式首先打开快捷方式属性,在“目标(T)”中将%USERPROFILE%,替换成你想要...

2020-03-22 21:47:14 252

原创 python——爬取网页时response.status_code为418

问题:response.status_code为418问题描述:当我使用Python的requests爬取网页时response和soup都是None,检查后发现response.status_code为418错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I’m a teapotThe HTTP 418 I’m a teapot client e...

2020-02-16 15:07:57 12555

原创 python——常见ERROR汇总

读取txt/csv等数据时UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence释义:Unicode的解码(Decode)出现错误(Error)了,以gbk编码的方式去解码(该字符串变成Unicode),但是此处通过gbk的方式,却无法解码(can’t...

2020-02-09 16:42:10 1311 1

原创 debug初级错误复盘(理论篇)

部分整理自熊猫小课学习第11关笔记初级bug的四大元凶bug 1:粗心漏了未尾的冒号,如if语句、循环语句、定义函数缩进错误,该缩进的时候没缩进,不该缩进的时候缩进了把英文符号写成中文符号,如:":(),字符串拼接的时候,把字符串和数字拼在一起没有定义变量 '=='和’=混用bug 2:知识不熟练bug 3:思路不清使用工具print()函数用于查看操作是否正...

2020-02-05 00:01:02 156

原创 python——升级pip的两大解决方案【最新】

在安装其他包时被告知pip版本太低无法安装,需要先升级pip,但是死活升级不了,穷遍全站找到了两大解决方案,是最常见的两种情况,完美解决了我的问题,希望也可以帮到你。

2020-02-01 21:52:51 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除