小帆的帆-CSDN博客

原创关联规则、支持度（support）、置信度（confidence）、并运用Spark RDD计算

转载请标明出处：小帆的帆的专栏例子：总共有10000个消费者购买了商品，其中购买尿布的有1000人，购买啤酒的有2000人，购买面包的有500人，同时购买尿布和啤酒的有800人，同时购买尿布的面包的有100人。关联规则关联规则：用于表示数据内隐含的关联性，例如：购买尿布的人往往会购买啤酒。支持度（support）支持度：{X, Y}同时出现的概率，例如：{尿布，啤酒}同时出现

2016-06-17 11:37:50 82825 1

原创结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure

转载请标明出处：小帆的帆的专栏例子某大学一个系，总共100人，其中男90人，女10人，现在根据每个人的特征，预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数 Accuracy = {预测正确的数量 \over 需要预测的总数} 计算由于我知道男生远多于女生，所以我完全无视特征，直接预测所有人都是男生我预测所的人都是男生，而实际有90个男生，所以预测正确的数量

2016-06-16 09:44:39 20944 2

原创结合Spark源码分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

combineByKeydef combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {combineByKeyWithClassTag(createCombiner, mergeValue,

2016-06-16 09:42:03 8268 2

原创 Spark join和cogroup算子

join下面的代码包括RDD和DataFrame的join操作, 注释中有详细描述import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkCo

2016-06-16 09:39:44 15934

原创 Spark RDD、DataFrame和DataSet的区别

RDD优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContextimport org.apac

2016-06-16 09:38:09 42509

原创 vscode不同项目使用不同插件

在使用vscode开发不同项目时可能会用到不同的插件。手动管理不够优雅，本文介绍使用Profiles的方式的来管理不同项目的插件。

2024-12-17 12:21:02 1244

原创 vscode不同的项目使用不同的环境变量或编译环境

vscode不同的项目使用不同的环境变量或编译环境

2024-12-16 14:37:09 694

原创 vscode设置中引用环境变量

vscode设置中引用环境变量的方法

2024-12-16 14:07:25 537

原创修改vscode设置的原理

修改vscode设置的原理，vscode终端代理，vscode设置中引用环境变量

2024-12-16 08:13:36 947

原创 vscode+msys2+clang+xmake c++开发环境搭建

vscode c++ 开发环境：clang工具链，CodeLLDB调试，clangd智能提示，xmake构建加包管理

2024-12-15 23:10:57 1533 2

原创 Python pip常用命令和源地址修改

转载请标明出处：小帆的帆的专栏pip常用命令安装新包: pip install xxxx卸载已安装的包：pip uninstall xxxx更新已安装的包: pip install xxxx -U查看已安装的包: pip list源地址修改mkdir ~/.piptouch ~/.pip/pip.confgedit ~/.pip/pip.conf粘贴一下内容[global]timeout =

2017-06-01 16:27:26 8609

原创神经网络-前向传播

转载请标明出处：小帆的帆的专栏特点方向：从左往右作用：由最左边的输入，计算出最右边的输出记号下面的推导和实践中会用到这些记号X：泛指数据集，不明确说明是用于，训练、验证还是测试 y：泛指数据集的真实输出值 X_train：训练数据集 y_train：训练数据集的真实输出值 aia_i：第i层，神经元中的值。对于输入层来说，X就是a1a_1 ziz_i：神经元中值的线性组合，

2016-09-29 10:45:00 2204

原创 tensorflow pycharm ImportError: libcudart.so.7.5

转载请标明出处：小帆的帆的专栏原因如果在安装tensorflow时，添加了gpu支持。在终端运行import tensorflow，正常。但是在pycharm中，却会报下面这个错误ImportError: libcudart.so.7.5: cannot open shared object file: No such file or directory意思就是文件

2016-08-18 11:10:38 7645

原创 Tensorflow交叉熵计算错误

转载请标明出处：小帆的帆的专栏出现错误的原因-y * np.log(a) - (1-y) * np.log(1 - a)当a = y = 0.0, y * np.log(a) = 0 * -inf = nan 当a = y = 1.0, (1 - y) * np.log(1 - a) = 0 * -inf = nan 出现nan的核心原因是log(0.0) = -inf, 所以a的取值才是关键

2016-07-29 17:48:15 5802

转载 Spark大规模机器学习的性能瓶颈和解决方案

瓶颈：在模型的参数维度非常大时，spark的内存和网络会成为比较大的瓶颈。在每轮训练之前，spark driver都会把模型参数广播到executor端，每个task分区训练完本地分区数据后，会把算出的梯度或weights增量聚集到driver端对模型参数(weights)进行更新。当模型参数维度比较高时，网络广播和聚集都需要比较长的时间，也需要耗费比较多的内存，同时更新计算时间也会比较长。

2016-06-21 18:05:35 2857

原创 Spark 线性代数库 Breeze API 详解

转载请标明出处：小帆的帆的专栏运算加，减，乘，除向量与向量加：+减：-乘：:*除：:/规则1:乘除前面，加冒号；单独的乘号和除号分别表示点积和线性求解规则2:累加效果，加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { val v1 = DenseVector(1.

2016-06-21 16:55:17 10734

翻译 Introducing Apache Spark Datasets

原文连接：https://databricks.com/blog/2016/01/04/introducing-apache-spark-datasets.html开发者已经喜欢上了Apache Spark提供的简洁而强大的API, 使用它们可以很容易的分析复杂问题。在Databricks，我们不断的加强Spark的可用性和性能，从而引入了DataFrame和Spark SQL。这些高级的API,

2016-06-16 14:35:51 1216

原创 Mac环境变量配置

1. 添加环境变量(1)打开应用程序 -> 实用工具 -> 终端； (2)在终端中定位到自己用户的主目录，输入： cd ~ ; (推荐从App Store中下载Go2Shell,可直接进入Finder当前目录)(3)创建一个空文件，输入：touch .bash_profile ； (4)编辑这个文件，输入：open .bash_profile ； (5)在这个文件中输入：ex

2013-12-26 16:51:04 892

Spinner显示城市信息

第一个Spinner，显示省级列表，选择后。第二个Spinner，对应显示市级列表，根据第一个Spinner动态更新。

2013-01-24

EditText限制输入字符数

在afterTextChanged函数中，更新还能输入的字数，达到限制字数后，删除输入字符。以达到，视觉上，无法输入的效果。

2013-01-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人