- 博客(19)
- 资源 (2)
- 收藏
- 关注

原创 关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算
转载请标明出处:小帆的帆的专栏例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的面包的有100人。关联规则关联规则:用于表示数据内隐含的关联性,例如:购买尿布的人往往会购买啤酒。支持度(support)支持度:{X, Y}同时出现的概率,例如:{尿布,啤酒}同时出现
2016-06-17 11:37:50
82825
1

原创 结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure
转载请标明出处:小帆的帆的专栏例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数 Accuracy = {预测正确的数量 \over 需要预测的总数} 计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量
2016-06-16 09:44:39
20944
2

原创 结合Spark源码分析, combineByKey, aggregateByKey, foldByKey, reduceByKey
combineByKeydef combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {combineByKeyWithClassTag(createCombiner, mergeValue,
2016-06-16 09:42:03
8268
2

原创 Spark join和cogroup算子
join下面的代码包括RDD和DataFrame的join操作, 注释中有详细描述import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkCo
2016-06-16 09:39:44
15934

原创 Spark RDD、DataFrame和DataSet的区别
RDD优点: 编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContextimport org.apac
2016-06-16 09:38:09
42509
原创 vscode不同项目使用不同插件
在使用vscode开发不同项目时可能会用到不同的插件。手动管理不够优雅,本文介绍使用Profiles的方式的来管理不同项目的插件。
2024-12-17 12:21:02
1244
原创 vscode+msys2+clang+xmake c++开发环境搭建
vscode c++ 开发环境:clang工具链,CodeLLDB调试,clangd智能提示,xmake构建加包管理
2024-12-15 23:10:57
1533
2
原创 Python pip常用命令和源地址修改
转载请标明出处:小帆的帆的专栏pip常用命令安装新包: pip install xxxx卸载已安装的包:pip uninstall xxxx更新已安装的包: pip install xxxx -U查看已安装的包: pip list源地址修改mkdir ~/.piptouch ~/.pip/pip.confgedit ~/.pip/pip.conf粘贴一下内容[global]timeout =
2017-06-01 16:27:26
8609
原创 神经网络-前向传播
转载请标明出处:小帆的帆的专栏特点方向:从左往右 作用:由最左边的输入,计算出最右边的输出记号下面的推导和实践中会用到这些记号X: 泛指数据集,不明确说明是用于,训练、验证还是测试 y: 泛指数据集的真实输出值 X_train: 训练数据集 y_train: 训练数据集的真实输出值 aia_i: 第i层,神经元中的值。对于输入层来说,X就是a1a_1 ziz_i: 神经元中值的线性组合,
2016-09-29 10:45:00
2204
原创 tensorflow pycharm ImportError: libcudart.so.7.5
转载请标明出处:小帆的帆的专栏原因如果在安装tensorflow时,添加了gpu支持。 在终端运行import tensorflow,正常。 但是在pycharm中,却会报下面这个错误ImportError: libcudart.so.7.5: cannot open shared object file: No such file or directory意思就是文件
2016-08-18 11:10:38
7645
原创 Tensorflow交叉熵计算错误
转载请标明出处:小帆的帆的专栏出现错误的原因-y * np.log(a) - (1-y) * np.log(1 - a)当a = y = 0.0, y * np.log(a) = 0 * -inf = nan 当a = y = 1.0, (1 - y) * np.log(1 - a) = 0 * -inf = nan 出现nan的核心原因是log(0.0) = -inf, 所以a的取值才是关键
2016-07-29 17:48:15
5802
转载 Spark大规模机器学习的性能瓶颈和解决方案
瓶颈:在模型的参数维度非常大时,spark的内存和网络会成为比较大的瓶颈。 在每轮训练之前,spark driver都会把模型参数广播到executor端, 每个task分区训练完本地分区数据后,会把算出的梯度或weights增量聚集到driver端对模型参数(weights)进行更新。当模型参数维度比较高时,网络广播和聚集都需要比较长的时间,也需要耗费比较多的内存,同时更新计算时间也会比较长。
2016-06-21 18:05:35
2857
原创 Spark 线性代数库 Breeze API 详解
转载请标明出处:小帆的帆的专栏运算加,减,乘,除向量与向量加:+减:-乘::*除::/规则1:乘除前面,加冒号;单独的乘号和除号分别表示点积和线性求解 规则2:累加效果,加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { val v1 = DenseVector(1.
2016-06-21 16:55:17
10734
翻译 Introducing Apache Spark Datasets
原文连接:https://databricks.com/blog/2016/01/04/introducing-apache-spark-datasets.html开发者已经喜欢上了Apache Spark提供的简洁而强大的API, 使用它们可以很容易的分析复杂问题。在Databricks,我们不断的加强Spark的可用性和性能,从而引入了DataFrame和Spark SQL。这些高级的API,
2016-06-16 14:35:51
1216
原创 Mac环境变量配置
1. 添加环境变量(1)打开 应用程序 -> 实用工具 -> 终端; (2)在终端中定位到自己用户的主目录,输入: cd ~ ; (推荐从App Store中下载Go2Shell,可直接进入Finder当前目录)(3)创建一个空文件,输入:touch .bash_profile ; (4)编辑这个文件,输入:open .bash_profile ; (5)在这个文件中输入:ex
2013-12-26 16:51:04
892
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人