自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

原创 关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算

转载请标明出处:小帆的帆的专栏例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的面包的有100人。关联规则关联规则:用于表示数据内隐含的关联性,例如:购买尿布的人往往会购买啤酒。支持度(support)支持度:{X, Y}同时出现的概率,例如:{尿布,啤酒}同时出现

2016-06-17 11:37:50 82825 1

原创 结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure

转载请标明出处:小帆的帆的专栏例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数 Accuracy = {预测正确的数量 \over 需要预测的总数} 计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量

2016-06-16 09:44:39 20944 2

原创 结合Spark源码分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

combineByKeydef combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {combineByKeyWithClassTag(createCombiner, mergeValue,

2016-06-16 09:42:03 8268 2

原创 Spark join和cogroup算子

join下面的代码包括RDD和DataFrame的join操作, 注释中有详细描述import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkCo

2016-06-16 09:39:44 15934

原创 Spark RDD、DataFrame和DataSet的区别

RDD优点: 编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContextimport org.apac

2016-06-16 09:38:09 42509

原创 vscode不同项目使用不同插件

在使用vscode开发不同项目时可能会用到不同的插件。手动管理不够优雅,本文介绍使用Profiles的方式的来管理不同项目的插件。

2024-12-17 12:21:02 1244

原创 vscode不同的项目使用不同的环境变量或编译环境

vscode不同的项目使用不同的环境变量或编译环境

2024-12-16 14:37:09 694

原创 vscode设置中引用环境变量

vscode设置中引用环境变量的方法

2024-12-16 14:07:25 537

原创 vscode设置终端代理

vscode设置终端代理

2024-12-16 13:55:15 1004

原创 修改vscode设置的原理

修改vscode设置的原理,vscode终端代理,vscode设置中引用环境变量

2024-12-16 08:13:36 947

原创 vscode+msys2+clang+xmake c++开发环境搭建

vscode c++ 开发环境:clang工具链,CodeLLDB调试,clangd智能提示,xmake构建加包管理

2024-12-15 23:10:57 1533 2

原创 Python pip常用命令和源地址修改

转载请标明出处:小帆的帆的专栏pip常用命令安装新包: pip install xxxx卸载已安装的包:pip uninstall xxxx更新已安装的包: pip install xxxx -U查看已安装的包: pip list源地址修改mkdir ~/.piptouch ~/.pip/pip.confgedit ~/.pip/pip.conf粘贴一下内容[global]timeout =

2017-06-01 16:27:26 8609

原创 神经网络-前向传播

转载请标明出处:小帆的帆的专栏特点方向:从左往右 作用:由最左边的输入,计算出最右边的输出记号下面的推导和实践中会用到这些记号X: 泛指数据集,不明确说明是用于,训练、验证还是测试 y: 泛指数据集的真实输出值 X_train: 训练数据集 y_train: 训练数据集的真实输出值 aia_i: 第i层,神经元中的值。对于输入层来说,X就是a1a_1 ziz_i: 神经元中值的线性组合,

2016-09-29 10:45:00 2204

原创 tensorflow pycharm ImportError: libcudart.so.7.5

转载请标明出处:小帆的帆的专栏原因如果在安装tensorflow时,添加了gpu支持。 在终端运行import tensorflow,正常。 但是在pycharm中,却会报下面这个错误ImportError: libcudart.so.7.5: cannot open shared object file: No such file or directory意思就是文件

2016-08-18 11:10:38 7645

原创 Tensorflow交叉熵计算错误

转载请标明出处:小帆的帆的专栏出现错误的原因-y * np.log(a) - (1-y) * np.log(1 - a)当a = y = 0.0, y * np.log(a) = 0 * -inf = nan 当a = y = 1.0, (1 - y) * np.log(1 - a) = 0 * -inf = nan 出现nan的核心原因是log(0.0) = -inf, 所以a的取值才是关键

2016-07-29 17:48:15 5802

转载 Spark大规模机器学习的性能瓶颈和解决方案

瓶颈:在模型的参数维度非常大时,spark的内存和网络会成为比较大的瓶颈。 在每轮训练之前,spark driver都会把模型参数广播到executor端, 每个task分区训练完本地分区数据后,会把算出的梯度或weights增量聚集到driver端对模型参数(weights)进行更新。当模型参数维度比较高时,网络广播和聚集都需要比较长的时间,也需要耗费比较多的内存,同时更新计算时间也会比较长。

2016-06-21 18:05:35 2857

原创 Spark 线性代数库 Breeze API 详解

转载请标明出处:小帆的帆的专栏运算加,减,乘,除向量与向量加:+减:-乘::*除::/规则1:乘除前面,加冒号;单独的乘号和除号分别表示点积和线性求解 规则2:累加效果,加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { val v1 = DenseVector(1.

2016-06-21 16:55:17 10734

翻译 Introducing Apache Spark Datasets

原文连接:https://databricks.com/blog/2016/01/04/introducing-apache-spark-datasets.html开发者已经喜欢上了Apache Spark提供的简洁而强大的API, 使用它们可以很容易的分析复杂问题。在Databricks,我们不断的加强Spark的可用性和性能,从而引入了DataFrame和Spark SQL。这些高级的API,

2016-06-16 14:35:51 1216

原创 Mac环境变量配置

1. 添加环境变量(1)打开 应用程序 -> 实用工具 -> 终端; (2)在终端中定位到自己用户的主目录,输入: cd ~ ; (推荐从App Store中下载Go2Shell,可直接进入Finder当前目录)(3)创建一个空文件,输入:touch .bash_profile ; (4)编辑这个文件,输入:open .bash_profile ; (5)在这个文件中输入:ex

2013-12-26 16:51:04 892

Spinner显示城市信息

第一个Spinner,显示省级列表,选择后。第二个Spinner,对应显示市级列表,根据第一个Spinner动态更新。

2013-01-24

EditText限制输入字符数

在afterTextChanged函数中,更新还能输入的字数,达到限制字数后,删除输入字符。以达到,视觉上,无法输入的效果。

2013-01-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除