![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
前行follow
learning sharing and discussing.
展开
-
jupyter notebook 替换和查找操作
可以选择替换单个cell,也可以选择替换所有cells原创 2022-06-08 11:51:33 · 8001 阅读 · 0 评论 -
【sklearn API】实现多种交叉验证
导库from sklearn.model_selection import ( TimeSeriesSplit, KFold, ShuffleSplit, StratifiedKFold, GroupShuffleSplit, GroupKFold, StratifiedShuffleSplit, StratifiedGroupKFold,)import numpy as npimport matplotlib.pyplot as pl原创 2022-05-26 09:38:38 · 250 阅读 · 0 评论 -
numpy.where
关于numpy.where的api使用numpy.where(condition,[x,y,]/)根据条件从x或y中选取元素参数:condition : array_like, bool当满足条件时,产生x,否则产生yx,y : array_likex,y,condition需要被广播成相同的维度返回值:out : ndarray返回满足条件的ndarray示例:np.where不仅可以用于一维数组也可以用于多维数组>>> a = np.arange(原创 2022-05-18 09:00:00 · 117 阅读 · 0 评论 -
NLP——tokenizer
TokenizationNormalization将原始文本变得更加“干净”。主要包括:Lowercase将文本小写化NFCNFDNFKCNFKDStripAccents去除声调规则描述Normalization Form D (NFD)规范分解Normalization Form C (NFC)规范分解,其次是规范组成Normalization Form KD (NFKD)兼容性分解Normalization Form KC (N原创 2021-11-16 16:10:29 · 487 阅读 · 0 评论 -
kaggle竞赛——数据处理
kaggle竞赛攻略数据处理数据导入Datatable%%timeimport datatable as dtdf = dt.fread("../data/train.csv") print("Train size:", data.shape)# Train size: (101230332, 10)# CPU times: user 41.4 s, sys: 14.3 s, total: 55.7 s# Wall time: 1min 14sRapidsimport c原创 2021-12-06 16:43:40 · 3477 阅读 · 0 评论