sklearn 绘制多分类ROC曲线

from rasa_nlu.model import Interpreter from sklearn.metrics import precision_score from sklearn.metrics import recall_score from sklearn import metri...

2019-06-14 14:08:30

阅读数 38

评论数 0

python json

json.load:把文件打开,并把字符串变换为数据类型 with open(p,'r') as f: data = json.load(f,ensure_ascii= False) dump: 将数据写入json文件中 #ensure_asci...

2019-06-02 21:52:48

阅读数 47

评论数 0

pandas matplotlib绘图

指定横纵坐标绘图 import pandas as pd import matplotlib.pyplot as plt users = pd.read_excel('Users.xlsx') users['Total'] = users['Oct']+users['Nov']+users[...

2019-06-02 13:37:08

阅读数 6

评论数 0

自然语言处理特征处理器

学习自张俊林大佬的知乎https://zhuanlan.zhihu.com/p/54743941 想整理下NLP任务中特征提取的发展脉络流程,整理了下张大神的博客。 RNN 特征提取方案:在输入的线性序列中,从前向后传播收集输入信息 存在的问题:反向传播路径太长,容易导致严重的梯度消失 ...

2019-05-08 15:33:08

阅读数 9

评论数 0

数据倾斜

数据倾斜的原因: 数据倾斜与业务逻辑和数据量有关 在MapReduce程序中,数据倾斜主要发生在某个key的数据量较大,此key分散到某个reduce造成reduce阶段的缓慢甚至卡顿。 在Spark程序中,同一个Stage的不同Partition可以并行运行,而具有依赖关系的Stage是串...

2019-04-30 10:32:15

阅读数 6

评论数 0

深度学习基础

深度学习 反向传播的作用: 梯度下降法中需要利用损失函数对所有参数的梯度来寻找局部最小点; 反向传播是用于计算梯度的具体方法,本质是利用链式法则对每个参数求偏导 激活函数 使用激活函数的目的是为了向网络中加入非线性隐藏层;加强网络的表达能力,解决线性模型无法解决的问题 某些数据是线性...

2019-04-29 19:50:23

阅读数 77

评论数 0

N-gram 新词发现总结

jieba与N-gram结合进行新词发现 使用jieba作为基础分词组件 针对新的文本,利用信息熵进行新词发现 使用字典树存储单词和统计词频 取TopN作为新词 此方法主要依托互信息和左右信息熵 互信息表示的是两个词的凝聚力,或者说是两个词在一起表示一个可被接收的常用词的概率 左右熵:...

2019-04-19 14:58:35

阅读数 149

评论数 0

python 小知识集锦

list中extend和append的区别: 1. append() 方法向列表的尾部添加一个新的元素。只接受一个参数。 2. extend()方法只接受一个列表作为参数,并将该参数的每个元素都添加到原有的列表中。 Zip()和Zip(*a)的区别: 可以看成是解压和压缩的区别,zip相当与...

2019-04-18 13:45:47

阅读数 46

评论数 0

python3 读取docx 并剔除中文全角符号

import docx import re from docx import Document import string path = '/Users/ya/Desktop/11246441.docx' document = Document(path) for line in documen...

2019-04-17 22:45:04

阅读数 26

评论数 0

pandas 操作小技巧汇编

不定时更新工作中遇到的小trick DataFrame.tocsv() 输出的colume最前面多了一个逗号 解决办法:设置index=False即可 train_data[['qid','title_char']].to_csv('/root/workspace/my_zhihu/d...

2019-04-12 17:29:55

阅读数 42

评论数 0

PyTorch DataLoader、DataSet

研究了下DataLoader大批量加载数据的原理:DataLoader只负责数据的抽象,一次调用getitem只返回一个样本 import torch from torch.utils.data import DataLoader,Dataset import numpy as np impo...

2019-04-12 10:26:32

阅读数 23

评论数 0

TorchText实践总结

TorchText详细介绍1传送门 TorchText入门教程,轻松玩转文本处理传送门 from torchtext.data import Field,TabularDataset,Iterator,BucketIterator ''' 声明式加载数据方式 tokenize:分词方式 ...

2019-04-11 15:10:56

阅读数 23

评论数 1

keras Tokenizer实践

科学使用Tokenizer步骤: 用Tokenizer的fit_on_texts学习出文本的字典 word_index是对应单词和数字的映射关系dict 通过dict将每个String的每个词转成数字,可以用texts_to_sequences ...

2019-03-25 10:53:57

阅读数 120

评论数 0

预训练语言模型

常用的抽取文本特征有: TFIDF/LDA/LSI gensim glove fasttext ELMO Bert word2vec的训练与简易使用 glove的训练与简易使用 简易版的glove安装使用比较方便 pip install glove-python word...

2019-03-21 17:02:31

阅读数 52

评论数 0

CRF

随机场:由若干个子集组成的一个整体,而每个子集都按照某个分布随机赋予一个值,这个场就叫随机场。 马尔科夫随机场:随机场中某一位置的赋值仅与其相邻位置的赋值有关,和与其不相邻位置的赋值无关。 CRF是马尔科夫随机场的特例,它假设马尔科夫随机场中只有X和Y两种变量,X一般是给定的,而Y一般是在给定...

2019-03-19 15:20:30

阅读数 34

评论数 0

HMM学习心得

HMM由初始状态概率向量、状态转移概率矩阵A和观测概率矩阵B决定。 初始状态概率矩阵=是时刻t=1处于状态的概率 初始状态概率与状态转移概率矩阵A决定了影藏的隐马尔科夫链,生成了不可观测的状态序列 观测概率矩阵B决定了如何从状态生成观测 HMM模型的两个基本假设: 隐藏的马尔科夫链在任意时...

2019-03-19 14:43:07

阅读数 18

评论数 0

Language Model

Word2vec word2vec有两种训练方法 CBOW:在句子序列中,从当前次的上下文去预测当前词 skip-gram:与CBOW相反,输入某个词,预测当前词的上下文 NNLM的训练:输入一个单词的上文,与预测这个单词 word Embedding 存在的问题:多义词问题 ELM...

2019-03-18 17:31:29

阅读数 61

评论数 0

CRT预估算法

FM(因子分解机) FM通过对特征之间的隐变量内积来提取特征组合 FM和集成树模型(如GDBT)都可以自动学习特征交叉组合 FM可以在非常稀疏的数据中进行合理的参数估计 FM的时间复杂度是线性的 FM是一个通用模型,可以用于任何特征为实值的情况 在一般的线性模型中,各个特征是独立考虑的,...

2019-03-17 20:30:28

阅读数 45

评论数 0

Python 求二叉树路径总和

题目来源: LeetCode113 路径总和 给定一个二叉树和一个目标和,找到所有从根节点到叶子节点路径总和等于给定目标和的路径。 说明:叶子节点是指没有子节点的节点。 5 / \ 4 8 ...

2019-03-14 21:18:44

阅读数 78

评论数 0

LeetCode

LeetCode78: > 给定一组不含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集)。 说明:解集不能包含重复的子集。 ``` 输入: nums = [1,2,3] 输出:[[], [1], [2], [2, 1], [3], [3, 1], [3, 2...

2019-03-14 15:58:28

阅读数 17

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭