Jennie_J-CSDN博客

原创赋值、浅拷贝、深拷贝

项目中被自己坑到了，因为对赋值和深浅拷贝的浅显理解先上一条自己用上的结论：深拷贝不改变父文件，如 copy.deepcopy(a)

2021-09-29 15:14:46 187

原创日常一些常用模块汇集【读取文件名】【json读取与保存】

def get_files(dir): """ 获取所有文件名 :param dir: 目录 :return: 目录下所有去重文件名的列表 """ file_list=[] for roots, dirs, files in os.walk(dir): for file in files: file_list.append(file.split('.')[0]) return list(set(file_

2021-09-29 15:03:27 290

原创 python之eval

eval() 函数用来执行一个字符串表达式，并返回表达式的值。x = 7y = eval( '3 * x' )print(y)21更好用的地方体现在：model_choice = 'TransformerTime_NL' # name of the model classmodel_file = eval(model_choice) 直接执行调用模型这一步，而不是字符串赋值model = model_file(n_diagnosis_codes, batch_size, options)

2021-01-08 16:26:11 288

原创两两组合工具之itertools

最近做项目的时候发现一个好用的工具，用于实现自动两两组合：itertools先mark一下，有空来补全具体功能

2021-01-08 15:37:02 376

原创 Python NumPy中的diag函数

np.diag(array) 这个函数比较有意思array是一个1维数组时，结果形成一个以一维数组为对角线元素的矩阵array是一个二维矩阵时，结果输出矩阵的对角线元素一般在u,s,vt = svd(data,k) 中比较常用，svd计算出的s是对角线元素的1维数组用于将s还原为对角线矩阵，即对角线上为非零值，其余位置数值均为0u,s,vt = svds(users_items_piv...

2020-02-24 23:52:34 2680

原创 python不同库里的svd

#from scipy.linalg import svd#from scipy.sparse.linalg import svds#from numpy.linalg import svd上述三者的区别在于：scipy.linalg.svd(data_matrix_array_like, full_matrices=True, compute_uv=True, overwrite_a=F...

2020-02-24 23:42:34 1445

原创 pandas.df.pivot()

df.pivot(index=None, columns = None, values=None)原来的interactions_train_df.head()#Creating a sparse pivot table with users in rows and items in columnsusers_items_pivot_matrix_df = interactions_tr...

2020-02-24 18:12:09 1604

原创 LFM-FM-MF-SVD-SVD++

https://zhuanlan.zhihu.com/p/98058812SVD++ 是对SVD的优化SVD 属于MF（矩阵分解）的一种MF属于LFM（隐语义模型）以上这些LFM都可以认为是FM

2020-02-24 17:26:33 338

原创推荐系统学习笔记02-基于内容的推荐之文章推荐

https://www.toutiao.com/a6463440831545082382/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1582473799&app=news_article&utm_source=weixin&utm_medium=toutia...

2020-02-24 16:22:53 825

原创 append()

item_profiles_list = [get_item_profile(x) for x in ids]与 [ ] + append（）+ for循环等价例如：def get_item_profiles(ids): item_profiles_list = [get_item_profile(x) for x in ids] item_profiles = scip...

2020-02-21 20:20:29 537

原创 python sorted()，zip(), flatten()

sorted() 函数对所有可迭代的对象进行排序操作https://www.runoob.com/python3/python3-func-sorted.htmlsort 与 sorted 区别：sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作，而内建函数 sorted 方法返回的是一个新...

2020-02-21 18:38:49 529

原创 scipy.sparse.vstack() 和 np.sum()

1， scipy.sparse.vstack() 表示按行拼接（行数增加），列数必须相同2， np.sum(s_multiplyed,axis=0) 每一列中所有行求和，结果行数为1，列数不变3，例子stopwords_list = stopwords.words('english')+stopwords.words('portuguese')vectorizer = TfidfVe...

2020-02-21 16:39:03 1669

原创 sklearn.metrics.pairwise 中 cosine_similarity

cosine_similarities.argsort()按相似度大小升序给出对应相似度所在位置，[-topn:]取倒数几个位置，即取相似度最大N个值所在indexsklearn.metrics.pairwise import cosine_similaritya1 = np.arange(5).reshape(1,5)a2 = np.arange(20).reshape(4,5)pr...

2020-02-21 16:25:18 4425

原创 numpy中matmul()、multiply()、dot()的区别

参考： https://www.jianshu.com/p/42b0b6ffcf971，numpy.matmul :矩阵乘法（matrix product）2，numpy.multiply:数量积（element-wise multiply）对象可以是array也可是matrix3，np.dot ：可以视对象发生变化，情况较复杂（1）如果a和b都是一维的,那么结果就是普通的內积(...

2020-02-21 15:50:15 1661

原创推荐系统学习笔记01-协同过滤之基于物品的歌曲推荐

最近业务需要用到推荐系统，遂调研了推进系统，在此作为学习笔记，以便日后查阅。一，概述提及最多的便是协同过滤协同过滤可以分为如下三类：基于用户的、基于物品的、基于模型的本文仅为基于物品的推荐系统初步构建参考二，项目背景与目标根据用户听过的历史歌单，为特定用户推荐合适的歌曲。三，数据情况现有用户历史歌单： train_triplets.txt，数据量为48373586条数据，每条数据...

2020-02-14 23:52:08 1108 2

原创 Jupyter Notebook打开默认文件夹以外的文件

jupyter notebook 默认打开C盘读取文件其他文件夹的文件有三种方式：将目标文件拷贝至C盘通过upload上传目标文件更改jupyter notebook默认文件夹为目标文件所在文件夹，该方法尤其在目标文件较大时适用此处主要针对第3种方式，以防自己忘记step1: cmd打开命令行，切换至目标文件夹，其中先从C盘切换至D盘（方式：输入D：即可），然后再进入D ...

2020-02-12 11:41:19 1235

原创推荐系统

推荐系统不错的博客

2019-11-20 14:54:41 167

原创 tensorflow2.0教程

不错的资源–keras教程

2019-11-20 14:53:32 138

原创 windows 安装tensorflow2.0

环境：windows 10python 3.6.5tensorflow 2.0.0 CPU版本ps: 原先已经通过anaconda安装了tf-1.13.1打开 Anaconda PromptSTEP1. 卸载tf-1.13.1pip uninstall tensorflow==1.13.1STEP2. 安装 tf-2.0.0pip install tensorflow==2.0...

2019-11-18 13:07:11 398

原创关于onehot和哑变量（dummy）

这篇文章讲述比较清楚，哪些模型何时用one-hot，何时用dummy搬砖：回归模型虚拟变量个数的选择：在模型中引入多个虚拟变量时，虚拟变量的个数应按下列原则确定：1.回归模型有截距：一般的，若该特征下n个属性均互斥（如，男/女;儿童/青年/中年/老年），在生成虚拟变量时，应该生成 n-1个虚变量，这样可以避免产生多重共线性。这种模式即为one-hot编码回归模型无截距项：有n个特征，...

2019-09-05 18:08:43 1326

原创 python代码规范

google开源项目风格指南—python

2019-09-03 16:35:02 110

原创《自然语言处理综述》-第三版读书笔记01

文本规范化（Text Normalization）：任何一种NLP模型，都需要先进行文本规范化文本规范化至少包含如下三个部分：（1）分词（Segmenting/tokenizing words from running text）（2）单词规范化（Normalizing word formats）（3）分句（Segmenting sentences in running text）未完待...

2019-08-21 18:04:51 687

原创关于评分卡和流失预警

评分卡流程流失预警

2019-08-20 17:23:09 393

原创自然语言处理资料集和公开数据集

参考1参考2

2019-08-20 15:46:55 960

原创 python f.write 中文报错

with open('train_ft.txt', 'w') as f: for sen in X_train: f.write(sen+'\n')报错：gbk不识别字符‘u/2022’解决办法python3.6.5with open('train_ft.txt', 'w',encoding='utf-8') as f: for sen in X_trai...

2019-08-16 10:23:34 977

原创中文分词工具

pkuseg部分应用

2019-08-06 18:47:11 117

原创 nltk

BOOK–Natural Language Processing with Python

2019-08-06 15:59:06 246

原创 fasttext解读

参考参数设置参考fasttext官网

2019-08-06 11:18:42 251

原创 win10+py37安装fastText

参考安装方法博客下载对应的python第三方安装包python第三方whl包Python如何安装.whl 文件？cmd进入当whl文件所在的文件夹下，附：cmd常用命令然后Pip install fasttext-0.9.1-cp37-cp37m-win_amd64.whl然后再 pip install fasttext，it’s ok!!!import fasttext...

2019-08-05 16:26:54 632

原创 bert知识点拆解

word2vecttransformer self_attentionBert_fine_tuning 应用过程 fine_tuning过程bert发展史从WE到BERTword embedding WEbert google源码github

2019-07-16 15:14:54 405

原创 windows下pytorch 之ImportError: DLL load failed: 找不到指定的模块问题解决

win10pytorch 1.0import torch报错：File “D:\Python\Python36\lib\site-packages\torch_init_.py”, line 78, in from torch._C import *ImportError: DLL load failed: 找不到指定的模块。解决办法：卸载重装(安装过程参考我之前写的安装过程htt...

2019-06-10 18:22:27 6600

转载 python 中name == "main"

1、这段代码的功能一个python的文件有两种使用的方法，第一是直接作为脚本执行，第二是import到其他的python脚本中被调用（模块重用）执行。if name == ‘main’: 的作用就是控制这两种情况执行代码的过程，在if name == ‘main’: 下的代码只有在第一种情况下（即文件作为脚本直接执行）才会被执行，而import到其他脚本中是不会被执行的讲述很清楚...

2019-05-13 22:19:04 87

原创 python3.6.5+win10+tensorflow1.13

安装配置：os版本：win10语言版本：py3.6.5IDE： pycharmTensorFlow1.13： CPU版本安装Aconda prompt 下: pip3 install tensorflowpip3大法果然好用安装完成测试（Aconda prompt和pyCharm下）import tensorflow as tfsees = tf.Session()a =...

2019-05-11 11:16:38 2721

原创 pytorch安装

按官网方法安装出现问题：CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.continuum.io/pkgs/main/win-64/repodata.json.bz2>Elapsed: An HTTP error occurred when trying to retrieve this URL....

2019-04-14 22:54:52 768

原创 sns.lmplot()

https://blog.csdn.net/dahunihao/article/details/77833922http://seaborn.pydata.org/generated/seaborn.lmplot.htmlsns.lmplot('User_ID','Purchase',data=df_Apurchase_by_UID_Gender,fit_reg=False,hue='Gend...

2019-04-02 23:32:32 6706

原创 df.groupby()

参考https://blog.csdn.net/m0_37870649/article/details/80979809df_Apurchase_by_UID_Gender=data.groupby(['User_ID','Gender']).agg({'Purchase':np.mean}).reset_index()print(df_Apurchase_by_UID_Gender.head...

2019-04-02 23:06:31 12904 1

原创 sns.countplot()函数

sns.countplot()函数以bar的形式展示每个类别的数量例如：plt.figure(figsize=(15,5)) #图的宽和长，单位为inchplt.subplot(121) #subplot(行，列，第几个)**sns.countplot('User_ID',data=data,alpha=0.8) #统计data中‘User_ID’这个特征每种类别的数量**...

2019-04-02 22:28:11 28541

原创 plt.figure(figsize=(a,b))和plt.subplot()函数

plt.figure(figsize=(6,8))表示figure 的大小为宽、长（单位为inch）figsize : (float, float), optional, default: Nonewidth, height in inches. If not provided, defaults torcParams[“figure.figsize”] = [6.4, 4.8].plt...

2019-04-02 22:11:50 89999 1

原创 pandas 唯一值unique( )和nunique()

以Kaggle上black Friday数据为例unique（）函数输出每个特征的唯一值for col in data.columns: print('{} unique element : {}'.format(col,data[col].unique()))输出User_ID unique element : [1000001 1000002 1000003 ... 1004...

2019-04-01 22:56:39 6122

原创 sklearn逻辑回归参数中涉及样本不平衡的部分

一、class_weight :分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样。手动输入各个类型的权重：比如对于0,1的二元模型，定义class_weight={0:0.8, 1:0.2}，即表示类型0的权重为80%，而类型1的权重为20%.选择balanced：类库根据训练样本量计算权重，表示样本数目越多，权重越小，样本数越少，权重越大。计算方法如下：...

2019-03-26 22:30:15 4986

空空如也

空空如也