自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 京东推荐算法实习生(二面已offer)

1 项目相关 2 了解MMOE吗 3 讨论论文 4 想做研究岗还是应用岗 算法题:最长无重复子串

2021-12-29 21:54:10 987

原创 360推荐算法实习生面试 (三面已offer)

推荐算法面试

2021-12-28 16:45:02 1325

原创 小红书推荐算法实习面试

剑指 Offer 42. 连续子数组的最大和 验证二叉搜索树 题目: word2vec原理 问项目 logistic原理

2021-12-10 17:48:42 1301 3

原创 Deep walk模型 详细解释

1 数据解释 数据集:wiki数据集(2405个网页,17981条网页间的关系) 输入样本:node1 node2 <edge_weight> 输出:每个node的embedding 根据随机游走的序列,输入到word2vec的模型当中,然后就能训练后表示出该节点的embedding 2 代码思想 步骤① 构建一个有向图 ② 进行deepwalk取样本 ③ 输入到word2vec当中训练 ④ 得到了训练好的word2vec,进行evaluate ⑤ 数据分为x_train,x_test,

2021-09-06 11:15:56 2308

原创 推荐系统DeepFM实现过程

Embedding 与 全连接的区别 Embedding是根据 一维的索引 [0,1,2,4] 这样 先转成one-hot然后进行映射到稠密矩阵 全连接是直接对 高维的向量 ,从nX layer1 映射到 nxlayer2 x = torch.tensor([1, 2, 3, 4]) fc = nn.Embedding(5, 3) print(fc(x)) share embedding中,都是按照field 域进行分类,不同的field要进行share embedding,就需要指定同一个embed

2021-09-03 11:58:39 420

原创 虚拟机网络配置注意点

①复制后,需要注意mac地址是否相同,参考如下文章 添加链接描述 ② 修改 /etc/sysconfig/network-scripts 下的 ifcfg-ens33 文件 ③ 关闭防火墙 ④ 修改 /etc/hosts 文件 基本就修改这几个地方

2021-08-09 14:04:45 104

原创 字节跳动今日头条算法实习生面试记录

1 上来就两道算法体,不是很难,就是 输入: 3[ab]abcabc2[a] 输出 ababababcabcaa 这样的答案 第二道算法是 3[ab2[cc]dd]aa 输出相应的答案 2 开始机器学习部分 (1) LR 的介绍,怎么做,损失是什么 (2)深拷贝与浅拷贝 (3)linux的命令 (4)装饰器 python 的用法 总结一下,只要算法做出来,后面不太差基本就稳了,面试官说对于实习生最看重基础,其他实习比赛项目不太看重。 ...

2021-07-23 17:26:00 295

原创 linux与 win上装pyhive

pyHIVe在win和linux上的安装 在windows上安装 sasl需要下载对应whl文件进行离线安装,其他直接进行安装 pip install sasl pip install thrift pip install thrift-sasl pip install pyhive linux上装 pyhive ,与windows类似,但是下载sasl要麻烦一些… yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64 pip i

2021-07-17 21:54:19 220

原创 scala 语法总结

scala 语法总结 一、基础语法 (1)val 相当于常量 var: 变量 var name : String = “hello” (2)import scala (3)apply() 函数 “hello world”.apply(6) 与python apply函数相似 (4)if 语句 (5) for 语句 ①简易版 for(i <- 1 to10) until版本:表达式不达到上限 for(i <- 1 until n) ②scala没有 brea

2021-07-10 17:00:22 135

原创 numpy手写朴素贝叶斯

numpy手写朴素贝叶斯 import numpy as np # 1 构建词向量矩阵 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'd

2021-06-07 16:52:18 97

原创 多种聚类算法比较(kmeans++,AP、层次聚类,谱聚类)

一 kmeans算法进行图片聚类 思路: 每一个像素都是1x3,对这些1x3的像素进行聚类,相同一类的用中心点的像素进行替代,从结果来看,聚成60个类没什么差别 def restore_image(centers, labels, shape): row, col, n = shape image = np.empty((row, col, n)) index = 0 for i in range(row): for j in range(col):

2021-06-02 22:15:46 2502

原创 泰坦尼克号 xgboost自定义损失 python

from sklearn.ensemble import AdaBoostClassifier, GradientBoostingRegressor, GradientBoostingClassifier, RandomForestRegressor from sklearn.metrics import recall_score, precision_score, accuracy_score, f1_score, mean_squared_error from sklearn.model_selecti

2021-05-08 22:52:24 339

原创 波士顿房价预测,线性模型手写+调包对比

带numpy 写法 与 调包对比 from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV, LogisticRegressionCV, Ridge from sklearn.decomposition import PCA from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.metrics import auc, roc

2021-05-06 16:43:53 206

原创 机器学习实战 CART部分,后剪枝代码

① readdata(): 读取数据 ② TreeNode: 构建树, 但后面都用字典进行构建了 ③ binary_split(): 按照最优切分值,把data进行切分 ④ choosebestsplit(); 选择最好的特征进行拆分 遍历每一个feature中每一个切分值,找到loss最小的 ⑤ creattree: 构建树,按照bestfeature, bestval,进行递归构建树, 调用了 ③ ④两个功能 ⑥istree: 判断是否是字典类型, 从而判断是否是一棵树 ⑦ getmean:

2021-05-03 11:02:02 389

原创 时间复杂度记录分析

第一篇文章 快速排序,归并排序时间复杂度为 o(nlogn)的理解: 最优情况下: 第一步 是对长度为n 的序列进行操作 第二步:每一次都对序列进行中间拆分,第一次分裂后,分成2份,第二次分裂后,分成4份, 第三次就是 222=8份, 一共分n次, 就是 222*2…2 = n ,所以纵向时间复杂度就是 logn次 所以总的时间复杂度就是 nlogn次 最差情况下,每次只能排第一个元素, 就nn次 ...

2021-05-02 11:09:28 104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除