- 博客(4)
- 收藏
- 关注
原创 数据分析知识点汇总
针对这种情况,可以将阈值从0逐渐提升到1,绘制出真正率(TP/(TP+FN))和假正率(FP/(FP+TN))所组成的曲线,该曲线即为ROC曲线,该曲线所围成的面积即为AUC的值,AUC的值越接近1越好。随机选择属性作为决策树的属性,对所有样本进行有放回的抽样作为决策树的样本,若干棵这样的树组成森林,最后根据所有树的投票决定样本的分类。梯度下降:需要设置参数的初始值,并设置每一次调整的步长,通过求导的方式逐步找到最优的参数值。在不同的数据集上,针对同一方法,对参数进行优化,从而达到更好的回归效果。
2024-01-18 15:09:57
1150
1
原创 记一次debug之路
在将jar包提交到集群上运行的时候,终端报错先检查了提交语句是否有错,是否要在语句中写明集群节点发现并不用,只用将–master设为yarn接下来细看报错,发现路径的传入有问题尝试修改配置文件中的路径,如加上集群ip等方法,但并没有用通过shell检查,发现原方法java的listFile方法找到的文件列表为空此时尝试spark的textFile方法,发现用最开始的路径可以读出文件这说明路径没有问题。问题在于读取目录的方法尝试找了一下listFile方法出错的原因,略有了解,但并没有找到真正
2021-05-10 16:56:54
127
原创 读取文件中的字符串时要注意分隔符
当你想对一个字符串执行切割操作时,要注意元素之间是以何种分隔符被分割开来的。比如元素可能是以空格被分割开的,也可能是被‘\t’分割开的,它们看上去都是‘ ’
2021-03-16 17:22:43
188
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人