普通网友-CSDN博客

原创 pytorch-task4

import os import csv import jieba import warnings import numpy as np import pandas as pd from tqdm import tqdm from gensim.models import Word2Vec import torch import torch.nn as nn from torch.optim i...

2019-08-13 19:31:49 210

原创 pytorch-task3

pytorch实现逻辑回归 import torch import torch.nn as nn from torch.optim import SGD class LR(nn.Module): def __init__(self): super(LR, self).__init__() self.linear = nn.Linear(2, 1) ...

2019-08-11 19:04:14 217 1

原创 pytorch-task2

numpy实现梯度下降 x = 1 learning_rate = 0.1 epochs = 50 y = lambda x : x ** 2 - 1 for epoch in range(epochs): print(epoch, x) dx = 2 * x x = x - learning_rate * dx print(y(x)) pytorch实现梯度下降 ...

2019-08-09 19:54:18 256

原创数据竞赛 Task2

TF-IDF，即“词频-逆文本频率”。它由两部分组成，TF和IDF。 TF就是词频，我们之前做的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征。 IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高，比如一些专业的名词如“Machine Learning”，这样的词IDF值应该...

2019-04-07 12:42:52 217

原创数据竞赛 Task1

数据： train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。注：每一个数字对应一个“字”，或“词”，或“标点符号”。...

2019-04-05 21:24:52 220

原创 NLP实践-Task10

1.transformer 　　图一、The Transformer Architecture 　　如图一所示是谷歌提出的transformer 的架构。这其中左半部分是 encoder 右半部分是 decoder。 Encod...

2019-03-23 19:01:07 454

原创 NLP实践-Task9

1.Encoder-Decoder框架要了解深度学习中的注意力模型，就不得不先谈Encoder-Decoder框架，因为目前大多数注意力模型附着在Encoder-Decoder框架下，当然，其实注意力模型可以看作一种通用的思想，本身并不依赖于特定框架，这点需要注意。图1 抽象的文本处理领域的Encoder-Decoder框架文本处理领域的Encoder-Decoder框架可以这么直观...

2019-03-19 19:00:16 244

原创 NLP实践-Task8

1.循环神经网络参考链接1：https://blog.csdn.net/u011304078/article/details/81158370 参考链接2：https://blog.csdn.net/zhaojc1995/article/details/80572098 参考链接3：https://zybuluo.com/hanbingtao/note/541458 参考链接4：h...

2019-03-17 22:18:58 532

原创 NLP实践-Task7

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 1.卷积参考链接：https://zhuanlan.zhihu.com/p/57575810 1.1卷积卷积：图像中不同数据窗口的数据和卷积核（一个滤波矩阵）作内积的操作叫做卷积。其计算过程又称为滤波，本质是提取图像不同频段的特征。卷积核：也称为滤波器filter，带着一组固定权重的...

2019-03-14 19:35:34 600 2

原创 NLP实践-Task6

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 1.one-hot one-hot编码（独热编码）用来解决类别型数据的离散值问题 import pandas as pd from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import On...

2019-03-13 20:58:16 258

原创 NLP实践-Task5

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 深度学习视频推荐1：https://www.icourse163.org/learn/PKU-1002536002?tid=1003797005#/learn/content 深度学习视频推荐2：https://mooc.study.163.com/course/2001281002#/info ...

2019-03-11 10:54:47 385

原创 NLP实践-Task4

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 1.朴素贝叶斯朴素贝叶斯参考链接：https://blog.csdn.net/qq_27009517/article/details/80044431 import numpy as np from sklearn import datasets from sklearn.naive_b...

2019-03-09 19:11:47 245

原创 NLP实践-Task3

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 1.TF-IDF TF-IDF参考链接：https://www.cnblogs.com/pinard/p/6693230.html from sklearn.feature_extraction.text import TfidfVectorizer corpus = ["I come ...

2019-03-07 09:48:43 273

原创 NLP实践-Task2

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811 1.基本文本处理技能 1.1分词的概念（分词的正向最大、逆向最大、双向最大匹配法）正向最大匹配法：对句子从左到右进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。逆向最大匹配法：对句子从右到左进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行...

2019-03-05 10:59:21 392

原创 NLP实践-Task1

对cnews数据做一些数据处理 import jieba import pandas as pd import tensorflow as tf from collections import Counter from gensim.models import Word2Vec from sklearn.feature_extraction.text import CountVectorize...

2019-03-03 19:43:16 451

原创 python 数据预处理

1.缺失值填充 import numpy as np import pandas as pd df = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3], 'b': [4, 6, np.nan, 6, 2, 7, np.nan, 3, 5], 'c': [np.nan, 8...

2018-09-04 15:56:40 324

原创 python 皮尔逊相关系数

from scipy.stats import pearsonr x = [0.5, 0.4, 0.6, 0.3, 0.6, 0.2, 0.7, 0.5] y = [0.6, 0.4, 0.4, 0.3, 0.7, 0.2, 0.5, 0.6] print(pearsonr(x, y)) # 输出:(r, p) # r:相关系数[-1，1]之间 # p:p值越小 ...

2018-09-04 15:56:07 10954 1

原创 python 余弦相似度

from sklearn.metrics.pairwise import cosine_similarity a = [[1, 3, 2], [2, 2, 1]] print(cosine_similarity(a))

2018-09-04 15:55:18 11066

原创 logistic回归和softmax回归

1.logistic回归二分类 2.softmax回归多分类参考链接：https://blog.csdn.net/x454045816/article/details/79009748

2018-09-04 10:20:41 188

原创机器学习 k-mediods算法

1.原理 k-mediods聚类算法原理和k-means聚类算法原理大体相似，主要不同的是k-means聚类算法更新聚簇中心的时候直接计算的均值，而k-mediods聚类算法更新聚簇中心的时候先对每个聚簇中心计算每一个点到簇内其他点的距离之和，然后再选择距离最小的点来作为新的聚簇中心。k-mediods算法这样计算可以避免数据中的异常值带来的影响。 2.算法思路（1）从输...

2018-09-03 14:22:29 3598

原创机器学习 k-means算法

1.原理 k-means是一种无监督的基于距离的聚类算法。在无监督的算法中，训练集的标签信息是不知道的，任务是通过对训练样本的学习来揭示数据的内在性质和规律。聚类是将训练集中的样本划分为若干个不想交的子集，每一个子集称为一个簇，这些簇都是不知道标签信息的数据样本，每一个样本都包含着一个n维的特征向量。 k-means聚类算法是将n个样本的数据集x划分为k个簇，表...

2018-09-03 14:20:50 243

原创机器学习决策树

1.决策树种类算法支持类型树结构特征选择连续值处理缺失值处理剪枝 ID3 分类多叉树信息增益不支持不支持不支持 C4.5（J48）分类多叉树信息增益率支持支持支持 CART 分类，回归二叉树基尼系数，方差支持 ...

2018-09-03 14:03:24 203

原创机器学习线性回归

1.线性回归 1.1原理线性回归就是通过拟合已知的数据来得到一个线性模型，然后再利用线性模型来预测其他数据，使得预测结果接近真实值，达到预期目标。最后把真实值和预测值作比较，计算均方误差，求取均方误差最小时的一组值。假设函数：损失函数：目标： 1.2算法思路 1.2.1最小二乘法划分数据后，利用训练数据中特征部分构建矩阵X，标签列构建y，然...

2018-09-03 10:23:18 371

原创机器学习 EM算法

参考链接：https://blog.csdn.net/zhihua_oba/article/details/73776553

2018-09-02 18:07:55 151

原创机器学习数据分析基础

1.数据类型（1）数值型 ● 连续型：利用实数表示属性 ● 离散型：利用整数表示属性（2）标称型 ● 0-1型：预先定义一个类别，若记录属于该类别则为1，否则为0 ● 多值标称型：预先定义一个类别集合，用类别集合中的一个或多个来描述样本（3）序列型：有序的数值型或标称型值串（4）序数型：具有偏序关系的离散数值 2.数据清洗（1）噪声数据 ● 平滑 ...

2018-09-02 18:05:45 268

原创机器学习模型融合

1.Voting 投票法针对分类模型，多个模型的分类结果进行投票，少数服从多数。除了公平投票外，还可以给投票设置权重，分类器效果越好权重越高，分类器效果越差，权重越低。 2.Averaging 回归问题：直接取平均值作为最终的预测值，也可以使用加权平均。分类问题：直接将模型的预测概率做平均，也可以使用加权平均。可以把所有模型预测的结果作为新的特征，再通过线性回归计算出权重...

2018-09-01 20:01:24 1573

原创机器学习评价指标

from sklearn.metrics import * # 参考链接 # https://blog.csdn.net/shine19930820/article/details/78335550 # https://blog.csdn.net/weixin_41770169/article/details/79547972 # y_true表示真实标签，y_pre表示预测标签，y_p...

2018-08-24 22:40:06 386

原创 python matplotlib

import matplotlib.pyplot as plt # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 样例图 plt.title('我的第一个图', fontsize=20) # 标题 plt.xlabel('X轴', color='...

2018-08-20 09:31:25 293

原创 python pandas

import numpy as np import pandas as pd df = pd.DataFrame({'a': [1, 4, 2, 3, 3, 2, 3, 1], 'b': [4, 3, 2, 1, 1, 3, 4, 1], 'c': [2, 3, 1, 2, 4, 2, 4, 2]}) print(df...

2018-07-23 21:18:05 252

原创 python numpy

numpy是Python的一个矩阵类型，提供了大量矩阵处理的函数。它的内部是通过c语言实现的而非Python，包含了两种基本的数据类型：数组和矩阵。 import numpy as np s = np.matrix([[6, 7, 3], [3, 1, 5], [4, 7, 2]]) print(s) # 输出矩阵 print(s.dtype) # 矩阵元素类型 print(...

2018-07-07 15:31:37 493

原创 python 时间处理

datetime模块包含一下四个类：datetime.time：时间类，只包含时、分、秒、微秒等时间信息。datetime.date：日期类，只包含年、月、日、星期等日期信息。datetime.datetime：日期时间类，包含以上两者的全部信息。datetime.timedelta：时间日期差值类，用来表示两个datetime之间的差值。1.字符串更改timeStr = "2018-06-01 ...

2018-06-29 18:36:49 237

伽音的博客