自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 赋值、浅拷贝、深拷贝

项目中被自己坑到了,因为对赋值和深浅拷贝的浅显理解先上一条自己用上的结论:深拷贝不改变父文件,如 copy.deepcopy(a)

2021-09-29 15:14:46 186

原创 日常一些常用模块汇集【读取文件名】【json读取与保存】

def get_files(dir): """ 获取所有文件名 :param dir: 目录 :return: 目录下所有去重文件名的列表 """ file_list=[] for roots, dirs, files in os.walk(dir): for file in files: file_list.append(file.split('.')[0]) return list(set(file_

2021-09-29 15:03:27 290

原创 python之eval

eval() 函数用来执行一个字符串表达式,并返回表达式的值。x = 7y = eval( '3 * x' )print(y)21更好用的地方体现在:model_choice = 'TransformerTime_NL' # name of the model classmodel_file = eval(model_choice) 直接执行调用模型这一步,而不是字符串赋值model = model_file(n_diagnosis_codes, batch_size, options)

2021-01-08 16:26:11 288

原创 两两组合工具之itertools

最近做项目的 时候发现一个好用的工具,用于实现自动两两组合:itertools先mark一下,有空来补全具体功能

2021-01-08 15:37:02 376

原创 Python NumPy中的diag函数

np.diag(array) 这个函数比较有意思array是一个1维数组时,结果形成一个以一维数组为对角线元素的矩阵array是一个二维矩阵时,结果输出矩阵的对角线元素一般在u,s,vt = svd(data,k) 中比较常用,svd计算出的s是对角线元素的1维数组用于将s还原为对角线矩阵,即对角线上为非零值,其余位置数值均为0u,s,vt = svds(users_items_piv...

2020-02-24 23:52:34 2680

原创 python不同库里的svd

#from scipy.linalg import svd#from scipy.sparse.linalg import svds#from numpy.linalg import svd上述三者的区别在于:scipy.linalg.svd(data_matrix_array_like, full_matrices=True, compute_uv=True, overwrite_a=F...

2020-02-24 23:42:34 1444

原创 pandas.df.pivot()

df.pivot(index=None, columns = None, values=None)原来的interactions_train_df.head()#Creating a sparse pivot table with users in rows and items in columnsusers_items_pivot_matrix_df = interactions_tr...

2020-02-24 18:12:09 1604

原创 LFM-FM-MF-SVD-SVD++

https://zhuanlan.zhihu.com/p/98058812SVD++ 是对SVD的优化SVD 属于MF(矩阵分解)的一种MF属于LFM(隐语义模型)以上这些LFM都可以认为是FM

2020-02-24 17:26:33 338

原创 推荐系统学习笔记02-基于内容的推荐之文章推荐

https://www.toutiao.com/a6463440831545082382/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1582473799&app=news_article&utm_source=weixin&utm_medium=toutia...

2020-02-24 16:22:53 823

原创 append()

item_profiles_list = [get_item_profile(x) for x in ids]与 [ ] + append()+ for循环 等价例如:def get_item_profiles(ids): item_profiles_list = [get_item_profile(x) for x in ids] item_profiles = scip...

2020-02-21 20:20:29 537

原创 python sorted(),zip(), flatten()

sorted() 函数对所有可迭代的对象进行排序操作https://www.runoob.com/python3/python3-func-sorted.htmlsort 与 sorted 区别:sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作,而内建函数 sorted 方法返回的是一个新...

2020-02-21 18:38:49 528

原创 scipy.sparse.vstack() 和 np.sum()

1, scipy.sparse.vstack() 表示按行拼接(行数增加),列数必须相同2, np.sum(s_multiplyed,axis=0) 每一列中所有行求和,结果行数为1,列数不变3, 例子stopwords_list = stopwords.words('english')+stopwords.words('portuguese')vectorizer = TfidfVe...

2020-02-21 16:39:03 1666

原创 sklearn.metrics.pairwise 中 cosine_similarity

cosine_similarities.argsort()按相似度大小升序给出对应相似度所在位置,[-topn:]取倒数几个位置,即取相似度最大N个值所在indexsklearn.metrics.pairwise import cosine_similaritya1 = np.arange(5).reshape(1,5)a2 = np.arange(20).reshape(4,5)pr...

2020-02-21 16:25:18 4424

原创 numpy中matmul()、multiply()、dot()的区别

参考: https://www.jianshu.com/p/42b0b6ffcf971,numpy.matmul :矩阵乘法(matrix product)2,numpy.multiply:数量积(element-wise multiply)对象可以是array也可是matrix3,np.dot :可以视对象发生变化,情况较复杂(1)如果a和b都是一维的,那么结果就是普通的內积(...

2020-02-21 15:50:15 1660

原创 推荐系统学习笔记01-协同过滤之基于物品的歌曲推荐

最近业务需要用到推荐系统,遂调研了推进系统,在此作为学习笔记,以便日后查阅。一,概述提及最多的便是协同过滤协同过滤可以分为如下三类:基于用户的、基于物品的、基于模型的本文仅为基于物品的推荐系统初步构建参考二,项目背景与目标根据用户听过的历史歌单,为特定用户推荐合适的歌曲。三,数据情况现有用户历史歌单: train_triplets.txt,数据量为48373586条数据,每条数据...

2020-02-14 23:52:08 1108 2

原创 Jupyter Notebook打开默认文件夹以外的文件

jupyter notebook 默认打开C盘读取文件其他文件夹的文件有三种方式:将目标文件拷贝至C盘通过upload上传目标文件更改jupyter notebook默认文件夹为目标文件所在文件夹,该方法尤其在目标文件较大时适用此处主要针对第3种方式,以防自己忘记step1: cmd打开命令行,切换至目标文件夹,其中先从C盘切换至D盘(方式:输入D:即可),然后再进入D ...

2020-02-12 11:41:19 1235

原创 推荐系统

推荐系统不错的博客

2019-11-20 14:54:41 167

原创 tensorflow2.0教程

不错的资源–keras教程

2019-11-20 14:53:32 138

原创 windows 安装tensorflow2.0

环境:windows 10python 3.6.5tensorflow 2.0.0 CPU版本ps: 原先已经通过anaconda安装了tf-1.13.1打开 Anaconda PromptSTEP1. 卸载tf-1.13.1pip uninstall tensorflow==1.13.1STEP2. 安装 tf-2.0.0pip install tensorflow==2.0...

2019-11-18 13:07:11 398

原创 关于onehot和哑变量(dummy)

这篇文章讲述比较清楚,哪些模型何时用one-hot,何时用dummy搬砖:回归模型虚拟变量个数的选择:在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:1.回归模型有截距:一般的,若该特征下n个属性均互斥(如,男/女;儿童/青年/中年/老年),在生成虚拟变量时,应该生成 n-1个虚变量,这样可以避免产生多重共线性。这种模式即为one-hot编码回归模型无截距项:有n个特征,...

2019-09-05 18:08:43 1326

原创 python代码规范

google开源项目风格指南—python

2019-09-03 16:35:02 110

原创 《自然语言处理综述》-第三版读书笔记01

文本规范化(Text Normalization):任何一种NLP模型,都需要先进行文本规范化文本规范化至少包含如下三个部分:(1)分词(Segmenting/tokenizing words from running text)(2)单词规范化(Normalizing word formats)(3)分句(Segmenting sentences in running text)未完待...

2019-08-21 18:04:51 687

原创 关于评分卡和流失预警

评分卡流程流失预警

2019-08-20 17:23:09 393

原创 自然语言处理资料集和公开数据集

参考1参考2

2019-08-20 15:46:55 960

原创 python f.write 中文报错

with open('train_ft.txt', 'w') as f: for sen in X_train: f.write(sen+'\n')报错:gbk不识别字符‘u/2022’解决办法python3.6.5with open('train_ft.txt', 'w',encoding='utf-8') as f: for sen in X_trai...

2019-08-16 10:23:34 977

原创 中文分词工具

pkuseg部分应用

2019-08-06 18:47:11 117

原创 nltk

BOOK–Natural Language Processing with Python

2019-08-06 15:59:06 246

原创 fasttext解读

参考参数设置参考fasttext官网

2019-08-06 11:18:42 251

原创 win10+py37安装fastText

参考安装方法博客下载对应的python第三方安装包python第三方whl包Python如何安装.whl 文件?cmd进入当whl文件所在的文件夹下,附:cmd常用命令然后Pip install fasttext-0.9.1-cp37-cp37m-win_amd64.whl然后再 pip install fasttext,it’s ok!!!import fasttext...

2019-08-05 16:26:54 632

原创 bert知识点拆解

word2vecttransformer self_attentionBert_fine_tuning 应用过程 fine_tuning过程bert发展史从WE到BERTword embedding WEbert google源码github

2019-07-16 15:14:54 405

原创 windows下pytorch 之ImportError: DLL load failed: 找不到指定的模块问题解决

win10pytorch 1.0import torch报错:File “D:\Python\Python36\lib\site-packages\torch_init_.py”, line 78, in from torch._C import *ImportError: DLL load failed: 找不到指定的模块。解决办法:卸载重装(安装过程参考我之前写的安装过程htt...

2019-06-10 18:22:27 6600

转载 python 中__name__ == "__main__"

1、这段代码的功能一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。if name == ‘main’: 的作用就是控制这两种情况执行代码的过程,在if name == ‘main’: 下的代码只有在第一种情况下(即文件作为脚本直接执行)才会被执行,而import到其他脚本中是不会被执行的讲述很清楚...

2019-05-13 22:19:04 87

原创 python3.6.5+win10+tensorflow1.13

安装配置:os版本:win10语言版本:py3.6.5IDE: pycharmTensorFlow1.13: CPU版本安装Aconda prompt 下: pip3 install tensorflowpip3大法果然好用安装完成测试(Aconda prompt和pyCharm下)import tensorflow as tfsees = tf.Session()a =...

2019-05-11 11:16:38 2720

原创 pytorch安装

按官网方法安装出现问题:CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.continuum.io/pkgs/main/win-64/repodata.json.bz2>Elapsed: An HTTP error occurred when trying to retrieve this URL....

2019-04-14 22:54:52 768

原创 sns.lmplot()

https://blog.csdn.net/dahunihao/article/details/77833922http://seaborn.pydata.org/generated/seaborn.lmplot.htmlsns.lmplot('User_ID','Purchase',data=df_Apurchase_by_UID_Gender,fit_reg=False,hue='Gend...

2019-04-02 23:32:32 6706

原创 df.groupby()

参考https://blog.csdn.net/m0_37870649/article/details/80979809df_Apurchase_by_UID_Gender=data.groupby(['User_ID','Gender']).agg({'Purchase':np.mean}).reset_index()print(df_Apurchase_by_UID_Gender.head...

2019-04-02 23:06:31 12904 1

原创 sns.countplot()函数

sns.countplot()函数以bar的形式展示每个类别的数量例如:plt.figure(figsize=(15,5)) #图的宽和长,单位为inchplt.subplot(121) #subplot(行,列,第几个)**sns.countplot('User_ID',data=data,alpha=0.8) #统计data中‘User_ID’这个特征每种类别的数量**...

2019-04-02 22:28:11 28538

原创 plt.figure(figsize=(a,b))和plt.subplot()函数

plt.figure(figsize=(6,8))表示figure 的大小为宽、长(单位为inch)figsize : (float, float), optional, default: Nonewidth, height in inches. If not provided, defaults torcParams[“figure.figsize”] = [6.4, 4.8].plt...

2019-04-02 22:11:50 89981 1

原创 pandas 唯一值unique( )和nunique()

以Kaggle上black Friday数据为例unique()函数输出每个特征的唯一值for col in data.columns: print('{} unique element : {}'.format(col,data[col].unique()))输出User_ID unique element : [1000001 1000002 1000003 ... 1004...

2019-04-01 22:56:39 6122

原创 sklearn逻辑回归参数中涉及样本不平衡的部分

一、class_weight :分类模型中各种类型的权重,可以不输入,即不考虑权重,或者说所有类型的权重一样。手动输入各个类型的权重:比如对于0,1的二元模型,定义class_weight={0:0.8, 1:0.2},即表示类型0的权重为80%,而类型1的权重为20%.选择balanced:类库根据训练样本量计算权重,表示样本数目越多,权重越小,样本数越少,权重越大。计算方法如下:...

2019-03-26 22:30:15 4985

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除