自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

伽音的博客

分享也是学习的一种方式

  • 博客(31)
  • 收藏
  • 关注

原创 pytorch-task4

import osimport csvimport jiebaimport warningsimport numpy as npimport pandas as pdfrom tqdm import tqdmfrom gensim.models import Word2Vecimport torchimport torch.nn as nnfrom torch.optim i...

2019-08-13 19:31:49 147

原创 pytorch-task3

pytorch实现逻辑回归import torchimport torch.nn as nnfrom torch.optim import SGDclass LR(nn.Module): def __init__(self): super(LR, self).__init__() self.linear = nn.Linear(2, 1) ...

2019-08-11 19:04:14 136 1

原创 pytorch-task2

numpy实现梯度下降x = 1learning_rate = 0.1epochs = 50y = lambda x : x ** 2 - 1for epoch in range(epochs): print(epoch, x) dx = 2 * x x = x - learning_rate * dxprint(y(x))pytorch实现梯度下降...

2019-08-09 19:54:18 200

原创 数据竞赛 Task2

TF-IDF,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF就是词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征。IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现,那么它的IDF值应该高,比如一些专业的名词如“Machine Learning”,这样的词IDF值应该...

2019-04-07 12:42:52 165

原创 数据竞赛 Task1

数据:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。注:每一个数字对应一个“字”,或“词”,或“标点符号”。...

2019-04-05 21:24:52 164

原创 NLP实践-Task10

1.transformer   图一、The Transformer Architecture  如图一所示是谷歌提出的transformer 的架构。这其中左半部分是 encoder 右半部分是 decoder。Encod...

2019-03-23 19:01:07 355

原创 NLP实践-Task9

1.Encoder-Decoder框架要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,这点需要注意。图1 抽象的文本处理领域的Encoder-Decoder框架文本处理领域的Encoder-Decoder框架可以这么直观...

2019-03-19 19:00:16 188

原创 NLP实践-Task8

1.循环神经网络参考链接1:https://blog.csdn.net/u011304078/article/details/81158370参考链接2:https://blog.csdn.net/zhaojc1995/article/details/80572098参考链接3:https://zybuluo.com/hanbingtao/note/541458参考链接4:h...

2019-03-17 22:18:58 425

原创 NLP实践-Task7

任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.卷积参考链接:https://zhuanlan.zhihu.com/p/575758101.1卷积卷积:图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积的操作叫做卷积。其计算过程又称为滤波,本质是提取图像不同频段的特征。卷积核:也称为滤波器filter,带着一组固定权重的...

2019-03-14 19:35:34 471 2

原创 NLP实践-Task6

任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.one-hotone-hot编码(独热编码)用来解决类别型数据的离散值问题import pandas as pdfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import On...

2019-03-13 20:58:16 195

原创 NLP实践-Task5

任务链接:https://wx.zsxq.com/dweb/#/index/222248424811深度学习视频推荐1:https://www.icourse163.org/learn/PKU-1002536002?tid=1003797005#/learn/content深度学习视频推荐2:https://mooc.study.163.com/course/2001281002#/info...

2019-03-11 10:54:47 305

原创 NLP实践-Task4

任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.朴素贝叶斯朴素贝叶斯参考链接:https://blog.csdn.net/qq_27009517/article/details/80044431import numpy as npfrom sklearn import datasetsfrom sklearn.naive_b...

2019-03-09 19:11:47 174

原创 NLP实践-Task3

任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.TF-IDFTF-IDF参考链接:https://www.cnblogs.com/pinard/p/6693230.htmlfrom sklearn.feature_extraction.text import TfidfVectorizercorpus = ["I come ...

2019-03-07 09:48:43 209

原创 NLP实践-Task2

任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.基本文本处理技能1.1分词的概念(分词的正向最大、逆向最大、双向最大匹配法)正向最大匹配法:对句子从左到右进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。逆向最大匹配法:对句子从右到左进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行...

2019-03-05 10:59:21 331

原创 NLP实践-Task1

对cnews数据做一些数据处理import jiebaimport pandas as pdimport tensorflow as tffrom collections import Counterfrom gensim.models import Word2Vecfrom sklearn.feature_extraction.text import CountVectorize...

2019-03-03 19:43:16 356

原创 python 数据预处理

1.缺失值填充import numpy as npimport pandas as pddf = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3], 'b': [4, 6, np.nan, 6, 2, 7, np.nan, 3, 5], 'c': [np.nan, 8...

2018-09-04 15:56:40 277

原创 python 皮尔逊相关系数

from scipy.stats import pearsonrx = [0.5, 0.4, 0.6, 0.3, 0.6, 0.2, 0.7, 0.5]y = [0.6, 0.4, 0.4, 0.3, 0.7, 0.2, 0.5, 0.6]print(pearsonr(x, y))# 输出:(r, p)# r:相关系数[-1,1]之间# p:p值越小 ...

2018-09-04 15:56:07 10787 1

原创 python 余弦相似度

from sklearn.metrics.pairwise import cosine_similaritya = [[1, 3, 2], [2, 2, 1]]print(cosine_similarity(a)) 

2018-09-04 15:55:18 10937

原创 logistic回归和softmax回归

1.logistic回归二分类2.softmax回归多分类参考 链接:https://blog.csdn.net/x454045816/article/details/79009748

2018-09-04 10:20:41 138

原创 机器学习 k-mediods算法

1.原理         k-mediods聚类算法原理和k-means聚类算法原理大体相似,主要不同的是k-means聚类算法更新聚簇中心的时候直接计算的均值,而k-mediods聚类算法更新聚簇中心的时候先对每个聚簇中心计算每一个点到簇内其他点的距离之和,然后再选择距离最小的点来作为新的聚簇中心。k-mediods算法这样计算可以避免数据中的异常值带来的影响。2.算法思路(1)从输...

2018-09-03 14:22:29 3353

原创 机器学习 k-means算法

1.原理        k-means是一种无监督的基于距离的聚类算法。在无监督的算法中,训练集的标签信息是不知道的,任务是通过对训练样本的学习来揭示数据的内在性质和规律。聚类是将训练集中的样本划分为若干个不想交的子集,每一个子集称为一个簇,这些簇都是不知道标签信息的数据样本,每一个样本都包含着一个n维的特征向量。         k-means聚类算法是将n个样本的数据集x划分为k个簇,表...

2018-09-03 14:20:50 172

原创 机器学习 决策树

1.决策树种类算法 支持类型 树结构 特征选择 连续值处理 缺失值处理 剪枝 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 C4.5(J48) 分类 多叉树 信息增益率 支持 支持 支持 CART 分类,回归 二叉树 基尼系数,方差 支持 ...

2018-09-03 14:03:24 145

原创 机器学习 线性回归

1.线性回归1.1原理        线性回归就是通过拟合已知的数据来得到一个线性模型,然后再利用线性模型来预测其他数据,使得预测结果接近真实值,达到预期目标。最后把真实值和预测值作比较,计算均方误差,求取均方误差最小时的一组值。假设函数: 损失函数: 目标:1.2算法思路1.2.1最小二乘法        划分数据后,利用训练数据中特征部分构建矩阵X,标签列构建y,然...

2018-09-03 10:23:18 310

原创 机器学习 EM算法

参考链接:https://blog.csdn.net/zhihua_oba/article/details/73776553

2018-09-02 18:07:55 110

原创 机器学习 数据分析基础

1.数据类型(1)数值型   ● 连续型:利用实数表示属性   ● 离散型:利用整数表示属性(2)标称型   ● 0-1型:预先定义一个类别,若记录属于该类别则为1,否则为0   ● 多值标称型:预先定义一个类别集合,用类别集合中的一个或多个来描述样本(3)序列型:有序的数值型或标称型值串(4)序数型:具有偏序关系的离散数值2.数据清洗 (1)噪声数据   ● 平滑 ...

2018-09-02 18:05:45 189

原创 机器学习 模型融合

1.Voting        投票法针对分类模型,多个模型的分类结果进行投票,少数服从多数。除了公平投票外,还可以给投票设置权重,分类器效果越好权重越高,分类器效果越差,权重越低。2.Averaging回归问题:直接取平均值作为最终的预测值,也可以使用加权平均。分类问题:直接将模型的预测概率做平均,也可以使用加权平均。可以把所有模型预测的结果作为新的特征,再通过线性回归计算出权重...

2018-09-01 20:01:24 1433

原创 机器学习 评价指标

from sklearn.metrics import *# 参考链接# https://blog.csdn.net/shine19930820/article/details/78335550# https://blog.csdn.net/weixin_41770169/article/details/79547972# y_true表示真实标签,y_pre表示预测标签,y_p...

2018-08-24 22:40:06 321

原创 python matplotlib

import matplotlib.pyplot as plt# 设置中文字体plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False# 样例图plt.title('我的第一个图', fontsize=20) # 标题plt.xlabel('X轴', color='...

2018-08-20 09:31:25 214

原创 python pandas

import numpy as npimport pandas as pddf = pd.DataFrame({'a': [1, 4, 2, 3, 3, 2, 3, 1], 'b': [4, 3, 2, 1, 1, 3, 4, 1], 'c': [2, 3, 1, 2, 4, 2, 4, 2]})print(df...

2018-07-23 21:18:05 213

原创 python numpy

        numpy是Python的一个矩阵类型,提供了大量矩阵处理的函数。它的内部是通过c语言实现的而非Python,包含了两种基本的数据类型:数组和矩阵。import numpy as nps = np.matrix([[6, 7, 3], [3, 1, 5], [4, 7, 2]])print(s) # 输出矩阵print(s.dtype) # 矩阵元素类型print(...

2018-07-07 15:31:37 424

原创 python 时间处理

datetime模块包含一下四个类:datetime.time:时间类,只包含时、分、秒、微秒等时间信息。datetime.date:日期类,只包含年、月、日、星期等日期信息。datetime.datetime:日期时间类,包含以上两者的全部信息。datetime.timedelta:时间日期差值类,用来表示两个datetime之间的差值。1.字符串更改timeStr = "2018-06-01 ...

2018-06-29 18:36:49 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除