- 博客(105)
- 收藏
- 关注
原创 springboot项目之java.lang.NullPointerException: null问题
没有任何提示,只有一行报错: RuntimeException-[java.lang.NullPointerException]最后发现是 controller文件,service定义一行少加了关键字 final 导致的, 补充之后就完美解决啦!
2024-02-21 14:33:44 739 1
原创 scala dataFrame 一列向量(部分为稀疏向量)转化为dense vector(rg.apache.spark.ml.linalg.SparseVector cannot be cast )
scala在数据输入模型前,用VectorAssembler函数将特征转化为向量,但是扔进模型fit时报错: org.apache.spark.ml.linalg.SparseVector cannot be cast to org.apache.spark.ml.linalg.DenseVector。), 那么如何将dataFrame的一列VectorAssembler转化完成的feature列全部转化为稠密向量呢?尝试了很多方法,最后成功的做法很简单,用UDF转换,代码如下。
2023-06-14 15:14:35 366
原创 pyltp postagger 运行过程中报错Process finished with exit code -1073740791 (0xC0000409)
pyltp postagger 运行过程中报错Process finished with exit code -1073740791 (0xC0000409)解决方案
2022-10-28 14:52:37 744 1
转载 pytorch 安装
anaconda 安装bash Anaconda3-2020.02-Linux-x86_64.shsource ~/.bashrcconda create -n pytorch python=3.7source activate pytorch 或者 condaactivate pytorch官网安装合适版本的pytorchconda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytor...
2021-12-01 21:10:25 227
原创 【presto & hive 对比4】获取数组长度
如何获取数组长度呢?hive: size 函数presto: cardinality函数--数据表 test_tb --字段 user_ids, 为逗号分隔的用户id--hive size函数select size(split(user_ids,',')) from test_tb-- prestoselect cardinality(split(user_ids,',')) from test_tbps: hive的数组index从0开始 presto的数组index从1开始
2021-04-30 21:26:23 1365 1
原创 20210417 [leetcode] 合并K个升序链表
https://leetcode-cn.com/problems/merge-k-sorted-lists/方法1 分治# Definition for singly-linked list.# class ListNode:# def __init__(self, val=0, next=None):# self.val = val# self.next = nextclass Solution: def mergeKLists(self, l
2021-04-17 18:10:32 99
原创 2021-03-06 一周总结
vim 多行加/去注释或替换字符https://blog.csdn.net/step_ma/article/details/76474864?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.
2021-03-06 15:52:05 92
原创 2021-02-27
近一周使用shell 命令:按照第一列,第二列进行排序-sortsort-k1n-k2nr批量替换文件夹文件中的字符-sedhttps://jingyan.baidu.com/article/0a52e3f4e87b5ebf62ed729d.htmlsed-i"s/len/size/g"`greplen-rl./`执行如下sed -i "s/len/size/g" `grep len -rl ./`其中,len为原字符串size为目标字符串-rl是递...
2021-02-27 15:29:10 125 3
原创 决策数的特征重要性结果变动原因分析
训练决策树的时候发现,多次训练结束的特征重要性不一样,最重要的特征总是会有变动,特别是第一重要的特征在三个当中不断变动。分析是特征共线性导致的,这三个特征的相关关系是0.99,业务逻辑上,三者也确实是正相关的,因此剔除其中两个,剔除之后特征重要性就未定了许多...
2021-02-27 15:02:07 322
原创 【presto & hive 对比3】分位点提取
--hiveselect '20210202' as log_date, percentile_approx(prob,array(0.25,0.5,0.75,0.95),9999) from ai.push_recsys_open_status_pred_buvid where log_date='20210202';--prestoselect '20210202' as log_date, approx_percentile(prob,array[0.25,0.5,0.75,0.95],9999
2021-02-05 14:28:19 5798
原创 【presto & hive 对比2】json字符串提取,行转列,位运算
json字符串提取--hiveselect get_json_object(json, '$.book');--Prestoselect json_extract_scalar(json, '$.book');--注意这里Presto中json_extract_scalar返回值是一个string类型,其还有一个函数json_extract是直接返回一个json串,所以使用的时候你得自己知道取的到底是一个什么类型的值.列转行有两个字段, user_id, scores(分别是用户的得分)
2020-11-16 23:24:27 1034
原创 hive查看当前参数设置
hive调整参数过程中,有时候看下默认参数还是有必要的,那么如何查看默认参数呢?set : 查看所有参数set 参数: 查看参数当前值参考 https://www.cnblogs.com/carltmf/p/13191392.html
2020-09-30 18:21:37 4161
原创 【涨知识啦】 20200802
目录解压&压缩命令vim 替换命令hive 中 map reduce个数控制python特定版本的pip调用解压&压缩命令01-.tar格式解包:[*******]$ tar xvf FileName.tar打包:[*******]$ tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)02-.gz格式解压1:[*******]$ gunzip FileName.gz解压2:[*******]$ gzip -d FileName.gz压 缩
2020-08-02 17:10:16 109
原创 【presto & hive 对比1】presto 与 hive的时间转换对比
工作中经常遇到的问题log_date:20200110 需要转换为标准日期,或者与时间戳数据进行比较工作环境涉及到presto与hive, 利用presto检查查询时速度更快,因此一般需要同时用presto和hive的语法对日期进行转换因此本篇博文主要对最近用到的时间转换进行梳理问题1:时间格式转换例子: 当前时间-20200110 转化为2020-01-10--输出 2020-01-10--hiveselect to_date(from_unixtime(UNIX_TIMESTAMP(
2020-07-26 15:44:58 1759
原创 scp免密操作
scp当前机器的文件到目标文件,每次scp的时候需要输入密码,免密设置为:将当前机器的公钥(没有的话就ssh-keygen -t rsa),复制到目标机器的authorized_keys文件中(没有文件则新建)scp .ssh/id_rsa.pub login_user@ip:/home/login_user/.ssh/authorized_keys参考链接https://www.jianshu.com/p/35c8dc1eecc1...
2020-07-23 20:56:53 3145
原创 vim 全选粘贴代码到本地 ggVG ctrl+v失效的原因
想全选vim的代码复制并粘贴代码到本地,百度出的方法:ggVG是全选,y是复制。gg是光标定位到文件首行;V是进入可视模式;G是跳转到文件最后一行;这个时候就将文本全选了。使用"*y使用进行复制,然后在浏览器中用ctrl+v粘贴。知":表示使用寄存器注意不要关闭vim。但是这种方法可以成功复制内容到粘贴板,在本地ctrl+V依然粘贴不到。原因是:执行 vim --version在列出来的feature中 xterm_clipboard 前面得有 ‘+’ 加号,才具有这个功能。或者使用
2020-05-15 11:20:37 2600
原创 【涨知识啦】2020-04-17 面试感悟
很庆幸在近两年左右开始面试, 跟大佬交流让人如沐春风,同时也学到了很多道理。我看到很多像你一样对工作有热情的人,但是没有深入研究的方向,导致工作一段时间之后失去核心竞争力,要早点确认自己的方向,深入研究工作的前五年应该尽量拓宽自己的深度,五年之后再拓宽广度,有了深度之后,广度是更容易的事情。依托自己的项目拓宽深度即可,多多思考如何才能做的更好,如何将遇到的问题抽象成算法。短平快的方法有的时...
2020-04-17 15:10:14 189
原创 【涨知识啦】2020-04-06 面试汇总
逻辑回归相关面试题https://blog.csdn.net/weixin_42933718/article/details/88874376逻辑回归为什么要用sigmoid函数https://blog.csdn.net/qq_19645269/article/details/79551576doc2vec原理https://blog.csdn.net/weixin_40547993/...
2020-04-04 12:10:39 137
原创 【涨知识啦】2020-03-30
二叉树各种遍历https://blog.csdn.net/Candy_GL/article/details/88531064后续遍历https://blog.csdn.net/u012435142/article/details/89062177kmeans适用条件数据集是凸数据集,就是数据集内任意两点的连线上所有的点都在数据集内,否则分类效果就很差,K mea...
2020-03-30 15:14:15 153
原创 【涨知识】 2020-03-29
python 生成器(yeild关键字)有什么优点呢? 1. 节省内存空间 2. 代码更为整洁 注意点:生成器只能遍历一次https://www.zhihu.com/question/24807364
2020-03-29 12:33:53 126
原创 二分搜索:是否带等号以及边界问题
一直纠结与二分搜索的<= 和< 以及边界界定问题,终于找到一个大神把相关问题捋明白啦链接:https://leetcode-cn.com/problems/find-first-and-last-position-of-element-in-sorted-array/solution/er-fen-cha-zhao-suan-fa-xi-jie-xiang-jie-by-labul...
2020-03-27 00:44:00 1604 1
原创 【2020-03-25】数据不平衡 & L1/L2正则防止过拟合的原理
数据不平衡https://blog.csdn.net/keycoder/article/details/79188853https://www.jianshu.com/p/f170d72f6fb6l1, l2正则化可以缓解过拟合的原因为什么要做特征归一化...
2020-03-25 11:05:17 218
原创 【涨知识】2020-03-08
最小二乘与梯度下降的区别(https://blog.csdn.net/zaishuiyifangxym/article/details/93787233?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task)总的来说,在机器学习中,最小二乘法只适...
2020-03-08 14:57:53 133
原创 【涨知识】2020-03-05
1. python 二维数组赋值注意点matrix = [[0] * 3] * 3执行 matrix = [1][1]此时matrix 变成 [[0,2,0], [0,2,0], [0,2,0]]本意是把矩阵的第一行第一列赋值为 2, 但是最终结果是每一行的第一列都是 2出现这个结果的原因是:list * n—>n shallow copies of list concaten...
2020-03-05 23:56:41 92
原创 2020-03-01 周日 晴
今日学习效率 良依然是上午几乎荒废的一天,好在下午3点开始,一直看神经网络-bert的内容,晚上视频直播学习,效率还不错!开始刷题
2020-03-01 23:22:22 119
原创 懂得多不如做得多
感悟二三菜是原罪。上学的时候学习是为了考试,学完就忘。 当下的学习则须记一辈子的。工作也好,生活也罢。最重要的莫过于三点听:耐心听人讲话,准确get到对方的点思考:理解别人的点,并有自己的思考。说:简明扼要准确的阐述自己的观点,使别人理解。不管是哪一点,都需要有足够的知识积累,厚积薄发。与大佬有同样的知识水平,才可以高效的与之对话。懂得多不如做得多。自律最难得!...
2020-02-26 23:22:10 190
原创 bert学习资料
https://blog.csdn.net/ibelieve8013/article/details/90021717把word2vec, nnlm, seq2seq, attension, transformer, bert串起来了https://www.zhihu.com/search?type=content&q=bert berthttps://zhuan...
2020-02-23 22:29:12 405
原创 梯度下降法与牛顿法
梯度下降,牛顿,拟牛顿法:https://zhuanlan.zhihu.com/p/37524275梯度下降的推导:https://blog.csdn.net/pengchengliu/article/details/80932232
2020-02-14 00:04:12 122
转载 git pull/push不需要输入密码
有两种方式:一是自建ssh;另外一种直接配置config配置文件不需要每次输入密码vim .git-credentialshttps://{username}:{password}@github.comgit config --global credential.helper store参考文档;https://www.jianshu.com/p/f54053afecf2...
2020-01-16 17:28:24 1469
原创 基于矩阵分解,svd的推荐算法参考博客记录
面试时被问到矩阵分解和svd做推荐算法的原理,特来探究了一下。矩阵分解:https://blog.csdn.net/GZHermit/article/details/73920755https://blog.csdn.net/recall_tomorrow/article/details/80218051svd:网上搜的大多数哦svd跟矩阵分解混为一谈了,下面的这个博客讲...
2019-12-22 14:50:43 256
原创 工作tips
1.杀死进程名称中包含qemu的所有进程ps aux|grep qemu|awk '{print $2}'|xargs kill -9
2019-12-11 15:22:43 99
原创 hive 将json格式的字符串取值或转为map格式
1. 取值:SELECT get_json_object(字段名,'$.json_key_value')--,--get_json_object(get_json_object(ad_test_group,'$.2019-09-cid2_1342_1276'),'$.group_id')fromtable_namewhere dt= '2019-09-21'2. st...
2019-09-25 23:45:47 4430
原创 python eval函数--将字符串存储的json格式可以直接转化为map
python eval函数可以将json格式的string 转化为map
2019-09-25 23:39:41 2041
原创 交叉熵
简单的交叉熵,你真的懂了吗? - 知乎 https://zhuanlan.zhihu.com/p/61944055Softmax函数与交叉熵 - 知乎 https://zhuanlan.zhihu.com/p/27223959
2019-09-14 22:11:47 121
原创 python udf 读取hive 传入的map & python udf 返回hive map
参考:hive之Python UDF函数操作map数据 详解 全是干货 - colby_chenlun的博客 - CSDN博客 https://blog.csdn.net/colby_chenlun/article/details/78140033str_to_map hive 字符串转为map格式 - yuanyangsdo的博客 - CSDN博客 https://blog.csdn.net...
2019-09-11 15:03:51 1206
原创 【python】【剑指offer】判断平衡二叉树
按照剑指offer复现python版本的平衡二叉树的题时,发现无法通过,代码如下:class Solution: def IsBalanced_Solution(self, pRoot): # write code here d = 0 return self.isBalanced(pRoot,d) def isBalanced...
2019-09-08 19:15:26 249
原创 【20190726】程序媛日常反思--都是粗心惹的祸
周报之前发现一个数据有问题查找问了搞了俩小时,最终定位到,一开始生产数据时, 类目信息,cid2name 与 cid3name 重复了,也许第一次生产完毕没在意,觉得利用数据的时候注意一下就行了。没想到几天之后又从这份原始数据中筛选数据时,忽略了这个问题,而且cid2name也用在了模型中,导致数据不可信,而且查问题花费了很长时间,周五哎,又搞到了9点半。不过问题定位到了,仍然是个好结局...
2019-07-26 21:33:40 128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人