weixin_46071260-CSDN博客

原创京东推荐算法实习生（二面已offer）

1 项目相关 2 了解MMOE吗 3 讨论论文 4 想做研究岗还是应用岗算法题：最长无重复子串

2021-12-29 21:54:10 987

原创小红书推荐算法实习面试

剑指 Offer 42. 连续子数组的最大和验证二叉搜索树题目： word2vec原理问项目 logistic原理

2021-12-10 17:48:42 1301 3

1 数据解释数据集：wiki数据集（2405个网页，17981条网页间的关系）输入样本：node1 node2 <edge_weight> 输出：每个node的embedding 根据随机游走的序列，输入到word2vec的模型当中，然后就能训练后表示出该节点的embedding 2 代码思想步骤① 构建一个有向图 ② 进行deepwalk取样本 ③ 输入到word2vec当中训练 ④ 得到了训练好的word2vec，进行evaluate ⑤ 数据分为x_train,x_test,

2021-09-06 11:15:56 2308

原创推荐系统DeepFM实现过程

Embedding 与全连接的区别 Embedding是根据一维的索引 [0,1,2,4] 这样先转成one-hot然后进行映射到稠密矩阵全连接是直接对高维的向量，从nX layer1 映射到 nxlayer2 x = torch.tensor([1, 2, 3, 4]) fc = nn.Embedding(5, 3) print(fc(x)) share embedding中，都是按照field 域进行分类，不同的field要进行share embedding，就需要指定同一个embed

2021-09-03 11:58:39 420

原创虚拟机网络配置注意点

①复制后，需要注意mac地址是否相同，参考如下文章添加链接描述 ② 修改 /etc/sysconfig/network-scripts 下的 ifcfg-ens33 文件 ③ 关闭防火墙 ④ 修改 /etc/hosts 文件基本就修改这几个地方

2021-08-09 14:04:45 104

原创字节跳动今日头条算法实习生面试记录

1 上来就两道算法体，不是很难，就是输入: 3[ab]abcabc2[a] 输出 ababababcabcaa 这样的答案第二道算法是 3[ab2[cc]dd]aa 输出相应的答案 2 开始机器学习部分 (1) LR 的介绍，怎么做，损失是什么（2）深拷贝与浅拷贝（3）linux的命令（4）装饰器 python 的用法总结一下，只要算法做出来，后面不太差基本就稳了，面试官说对于实习生最看重基础，其他实习比赛项目不太看重。 ...

2021-07-23 17:26:00 295

原创 linux与 win上装pyhive

pyHIVe在win和linux上的安装在windows上安装 sasl需要下载对应whl文件进行离线安装，其他直接进行安装 pip install sasl pip install thrift pip install thrift-sasl pip install pyhive linux上装 pyhive ，与windows类似，但是下载sasl要麻烦一些… yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64 pip i

2021-07-17 21:54:19 220

原创 scala 语法总结

scala 语法总结一、基础语法 (1)val 相当于常量 var: 变量 var name : String = “hello” (2）import scala (3）apply() 函数 “hello world”.apply(6) 与python apply函数相似 (4）if 语句 (5) for 语句 ①简易版 for(i <- 1 to10) until版本:表达式不达到上限 for(i <- 1 until n) ②scala没有 brea

2021-07-10 17:00:22 135

原创 numpy手写朴素贝叶斯

numpy手写朴素贝叶斯 import numpy as np # 1 构建词向量矩阵 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'd

2021-06-07 16:52:18 97

原创多种聚类算法比较(kmeans++，AP、层次聚类,谱聚类)

一 kmeans算法进行图片聚类思路: 每一个像素都是1x3，对这些1x3的像素进行聚类，相同一类的用中心点的像素进行替代，从结果来看，聚成60个类没什么差别 def restore_image(centers, labels, shape): row, col, n = shape image = np.empty((row, col, n)) index = 0 for i in range(row): for j in range(col):

2021-06-02 22:15:46 2502

原创泰坦尼克号 xgboost自定义损失 python

from sklearn.ensemble import AdaBoostClassifier, GradientBoostingRegressor, GradientBoostingClassifier, RandomForestRegressor from sklearn.metrics import recall_score, precision_score, accuracy_score, f1_score, mean_squared_error from sklearn.model_selecti

2021-05-08 22:52:24 339

原创波士顿房价预测，线性模型手写+调包对比

带numpy 写法与调包对比 from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV, LogisticRegressionCV, Ridge from sklearn.decomposition import PCA from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.metrics import auc, roc

2021-05-06 16:43:53 206

原创机器学习实战 CART部分，后剪枝代码

① readdata(): 读取数据 ② TreeNode: 构建树，但后面都用字典进行构建了 ③ binary_split(): 按照最优切分值，把data进行切分 ④ choosebestsplit(); 选择最好的特征进行拆分遍历每一个feature中每一个切分值，找到loss最小的 ⑤ creattree: 构建树,按照bestfeature, bestval，进行递归构建树, 调用了 ③ ④两个功能 ⑥istree: 判断是否是字典类型，从而判断是否是一棵树 ⑦ getmean:

2021-05-03 11:02:02 389

原创时间复杂度记录分析

第一篇文章快速排序，归并排序时间复杂度为 o(nlogn)的理解: 最优情况下：第一步是对长度为n 的序列进行操作第二步：每一次都对序列进行中间拆分，第一次分裂后，分成2份，第二次分裂后，分成4份，第三次就是 222=8份，一共分n次，就是 222*2…2 = n ，所以纵向时间复杂度就是 logn次所以总的时间复杂度就是 nlogn次最差情况下，每次只能排第一个元素，就nn次 ...

2021-05-02 11:09:28 104