自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 kaggle getting_start (三) 手写体识别mnist

pytorch实现 用简单的两层CNN跑一下这道题,需要GPU加速,代码如下,代码其实入门都差不多,简单提一下pytorch构建简单神经网络的思路(个人理解): 1.首先载入原始训练集,.values转换成列表形式,并且将标签和数据进行划分进行标准化(像素0-255->0-1) 2.数据集的划分,划分成8:2,一部分训练,一部分测试 3.将数据转换成tensor形式,Data.TensorDataset(X_train,Y_train) 4.设置超参数,BATCH_SIZE,EPOCH以及优化器的学习

2020-11-20 20:56:30 134

原创 kaggle getting_start (二) 房价预测 House Prices

上一次是17%,不太满意,这次尽量把能用上的都用上 首先了解一下回归和分类模型的评价指标区别: 分类: 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_score Recall 召回率 from sklearn.metrics import recall_score F1 F1值

2020-11-20 15:09:46 291

原创 机器学习基础入门&kaggle getting_start

第一天简单回顾pandas基本的操作 https://blog.csdn.net/liufang0001/article/details/77856255?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160376195819724822529720%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=16037619581972482252

2020-11-01 23:28:10 299 1

原创 2020-10-02

ML/DL 学习笔记2 ACC RECALL PRE F1 AOC AUC

2020-10-02 20:20:12 94

原创 2020-10-02

ML/DL 学习笔记1 分类:有监督学习,y离散 聚类:无监督学习,分为几个类别 回归:y值连续 特征工程(x值) 大部分情况下,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分∶ 数据过滤 处理数据缺失 处理可能的异常、错误或者异常值 合并多个数据源数据 数据汇总 对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵: 将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dumy 从

2020-10-02 19:48:21 195

原创 2020-09-14

小结: 这次的训练数据集选用了2460个CVE收录的漏洞相关情报与2119个随机时间爬取的Issue数据与PR数据,Issue与PR的数据集大小比例为10:1。 一共构建了六个特征组,分别为文本特征组、行为特征组、代码特征组、人员特征组、会话特征集、项目特征集 构建的特征属性一共24个,大致可以分为数值型特征、文本型特征、布尔型特征。通过脚本处理,清洗数据,词频统计,最后选取了issue/PR的标签与会话内容出现的前150个高频词,通过判断词语是否在特征属性中,将文本型特征转换成了布尔型特征,空

2020-09-14 09:19:54 163

原创 2020-08-29

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/simplifyweibo_4_moods/intro.ipynb

2020-09-04 00:40:53 233

原创 2020-09-03

线性回归、岭回归、Lasso回归、PCA 笔记 线性回归中可能遇到的问题 求解损失函数的最小值有两种方法:梯度下降法以及正规方程。 特征缩放:即对特征数据进行归一化操作,进行特征缩放的好处有两点,一是能够提升模型的收敛速度,因为如果特征间的数据相差级别较大的话,以两个特征为例,以这两个特征为横纵坐标绘制等高线图,绘制出来是扁平状的椭圆,这时候通过梯度下降法寻找梯度方向最终将走垂直于等高线的之字形路线,迭代速度变慢。但是如果对特征进行归一化操作之后,整个等高线图将呈现圆形,梯度的方向是指向圆心的,迭代速度远远

2020-09-03 10:44:23 116

原创 2020-08-20

爬虫初步(一) 首先导入requests库 指定URL,使用get方法获取数据 response.text返回的类型是str response.content返回的类型是bytes,可以通过decode()方法将bytes类型转为str类型 下面贴的是小说爬虫的代码块 import requests from bs4 import BeautifulSoup import lxml import re import sys class test(object): def __init__(self)

2020-08-23 16:29:02 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除