Star-Technology

私信 关注
Star-Technology
码龄8年
  • 208,120
    被访问量
  • 198
    原创文章
  • 21,539
    作者排名
  • 190
    粉丝数量
  • 于 2012-10-30 加入CSDN
获得成就
  • 获得59次点赞
  • 内容获得8次评论
  • 获得109次收藏
荣誉勋章
兴趣领域
  • #大数据
    #spark#数据仓库#ETL#hadoop#storm#hive
TA的专栏
  • 调度系统
    1篇
  • Big Data
    140篇
  • 数据挖掘
    31篇
  • Pyhton
    14篇
  • TensorFlow
    10篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

Dolphin Scheduler本地开发环境配置

基础环境:Macbook Projava 8python 2.7Mysql 8.01.安装ZooKeeper下载地址:http://mirrors.hust.edu.cn/apache/zookeeper/stable/note:需要下载apache-zookeeper-3.5.8-bin.tar.gz文件,否则zk无法启动错误信息:错误: 找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain解压文件,进入conf,
原创
1044阅读
0评论
0点赞
发布博客于 8 月前

Spark TroubleShooting

1.数据的并行度是资源的并行度的两到三倍 2.Spark的shuffle和MR的shuffle不同 3.Troubleshooting 解决算子函数返回NUll导致问题: 在返回的时候,返回一些特殊的值,不要返回null,比如“-999”;2、在通过算子获取到了一个RDD之后,可以对这个RDD执行filter操作,进行数据过滤。filter内,可以对数据进行判定,如果是-999,那么就返回fa
原创
332阅读
0评论
0点赞
发布博客于 4 年前

Spark性能调优

算子级别的优化:coalesce和repartition都能增加或减少分区的数量,repartition会发生shuffle1、浪费资源、数据倾斜:filter+coalesce(+repartition) 业务测试local,不需要去设置分区和并行度的数量 2、foreachpartition:大部分的内存:计算 、 shuffle,设法减少每个partition的数据量 3、mapPart
原创
612阅读
0评论
0点赞
发布博客于 4 年前

Spark数据倾斜

1.在任何大数据类的项目中,都是最棘手的性能问题,最能体现人的技术能力,最能体现RD(Research Developer,研发工程师)的技术水平。 数据倾斜 = 性能杀手,如果没有丰富的经验,或者没有受过专业的技术培训,是很难解决数据倾斜问题的,因为上述的特点,数据倾斜解决方案,这块儿内容和技术,在咱们的这个模块,甚至是整个项目中,都是非常非常核心、有含金量、有价值的。 2.什么是数据倾斜?
原创
435阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(十)

1.TensorFlow神经网络—符号嵌入操作 描述tf.nn.embedding_lookup(params, ids, partition_strategy=’mod’, name=None, validate_indices=True) 根据索引ids查询embedding列表params中的tensor值如果len(params) > 1,id将会安照partition_str
原创
583阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(九)

TensorFlow神经网络—激活函数操作 描述tf.nn.relu(features, name=None) 整流函数:max(features, 0)tf.nn.relu6(features, name=None) 以6为阈值的整流函数:min(max(features, 0), 6)tf.nn.elu(features, name=None) elu函数,exp(featur
原创
568阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(八)

1.TensorFlow复数操作操作 描述tf.complex(real, imag, name=None) 将两实数转换为复数形式# tensor ‘real’ is [2.25, 3.25]# tensor imag is [4.75, 5.75]tf.complex(real, imag) ==> [[2.25 + 4.75j], [3.25 + 5.75j]]tf.compl
原创
3727阅读
0评论
2点赞
发布博客于 4 年前

TensorFlow学习笔记(七)

1.TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为op (operation 的缩写). 一个 op获得 0 个或多个张量(Tensor) , 执行计算, 产生 0 个或多个Tensor . 每个 Tensor 是一个按类型划分的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是[batch, height, width, cha
原创
223阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow基本介绍

1.TensorFlow简介 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。 TensorFlow可被用于语音
原创
1418阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(六)

Scope命名方式'''Created on 2017年10月26日@author: yanmengf'''import tensorflow as tfwith tf.name_scope("a_name_scope"): initializer = tf.constant_initializer(value=1) var1 = tf.get_variable(name='v
原创
154阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(五)

保存神经网络'''Created on 2017年10月26日@author: yanmengf'''#coding:utf-8"""Please note, this code is only for python 3+. If you are using python 2+, please modify the code accordingly."""import tensorfl
原创
137阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(四)

CNN—卷积神经网络 CONVOLUTIONS Neural Network'''Created on 2017年10月25日@author: yanmengf'''#coding:UTF-8"""Please note, this code is only for python 3+. If you are using python 2+, please modify the cod
原创
274阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(三)

分类学习—Classification'''Created on 2017年10月25日@author: yanmengf'''#coding:UTF-8"""Please note, this code is only for python 3+. If you are using python 2+, please modify the code accordingly."""i
原创
220阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(二)

1. import tensorflow as tfimport numpy as npdef add_layer(inputs,in_size,out_size,actvation_function=None): Weights = tf.Variable(tf.random_normal([in_size,out_size])) biases = tf.Variable(tf
原创
257阅读
0评论
0点赞
发布博客于 4 年前

TensorFlow学习笔记(一)

Linux:sudo apt-get install python-pip python-dev#如果是Python2sudo pip --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.8.0-cp27-none-linux_x86_64.whl#如果是python3sudo pip3 --upg
原创
294阅读
0评论
1点赞
发布博客于 4 年前

Python学习笔记(十四)

使用Python的网页开发 1.python 2.7 version 2.使用easy_install lpthw.web 3.在目录下建立一个文件,如命名为goweb 4.在goweb文件夹下建立文件夹,命名为bin 5.在bin目录下建立一个文件命名为app.py 6.如下代码impot weburls = ( '/', 'index')app = web.applicat
原创
145阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(十三)

1.图形界面 GuiTkinter GUI: Graphical User Interface Tkinter: GUI library for Python#coding:utf-8from tkinter import *import tkinter.simpledialog as dlimport tkinter.messagebox as mbroot = Tk()w = Labe
原创
210阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(十二)

1.语法错误和异常错误while True print("Hello Python")Error Message: File “C:\Programming\eclipse\project\PythonStudy\Exception.py”, line 9 while True print(“Hello Python”) ^ SyntaxEr
原创
238阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(十一)

变量的输入输出# coding:utf-8str_1 = input("Enter a string:")str_2 = input("Enter another string:")print("str_1 is: " + str_1 + "str_2 is: " + str_2)print("str_1 is {} + str_2 is {}".format(str_1, str_2))
原创
142阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(十)

1.关键字break continue#关键词 break continue#其实在这里,continue是可有可无的number = 29i = 0while True: guess = int(input("Enter an integer:")) if guess == number: i = i + 1 break elif
原创
131阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(九)

1.if 和 for'''Created on 2017年10月17日@author: yanmengf'''# coding:utf-8#if语句from Tuple_List_Compare import a_tuplenumber = 29guess = int(input("Enter an integer :"))if guess == number: print(
原创
162阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(八)

1.函数就是程序中可重复使用的程序段 用关键字“def”来定义,给一段程序起一个名字,用这个名字来执行一段程序,反复使用# coding:utf-8def say_hi(): print("hi!")say_hi()#参数Functiondef print_sum_two(a,b): c = a + b print(c)print_sum_two(3, 6)#传入字
原创
122阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(七)

1.创建只包含一个元素的tuple#创建只包含一个元素的tuplea_tuple = (2,)2.Tuple中的List#tuple中的listmixed_tuple = (1,2,['a','d'])print("mixed_tuple:"+str(mixed_tuple))3.修改tuple中的listmixed_tuple[2][0] = 'c'mixed_tuple[2][1] =
原创
110阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(六)

1.编码# _*_ coding:utf-8 _*_如果使用Python打印中文字符串,没有上面的代码,就会显示错误print("你好")2.list 数据结构—–List中的元素可以不相同,可以进行混合 如何创建一个list?——–[]符号代表list,里面的值用,进行分割number_list = [1,3,5,7,9]print("number_list :" + str(number_
原创
119阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(五)

Python Interpreter—Python解释器 Python中一个核心模块,把Python语言解释成计算机可以理解的语言 安装目录下的python.exe就是解释器Python环境变量以及Python Command Line模式 我的电脑—属性—高级系统设置—环境变量—在系统变量中找到PATH—点击编辑—在最前面加上python.exe的路径(注意,加完之后需要使用;进行分割)
原创
104阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(四)

Python Interpreter—Python解释器 Python中一个核心模块,把Python语言解释成计算机可以理解的语言 安装目录下的python.exe就是解释器Python环境变量以及Python Command Line模式 我的电脑—属性—高级系统设置—环境变量—在系统变量中找到PATH—点击编辑—在最前面加上python.exe的路径(注意,加完之后需要使用;进行分割)
原创
173阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(三)

Python 语言介绍: 面向对象,解释性计算机程序设计语言 广泛应用于科学计算,众多开源科学计算软件包提供Python开放接口(e.g:openCV) 设计哲学:优雅、明确、简单、可读性强 优点:功能强大、开发效率高、应用广泛、易上手、语法简洁 用途:网页开发、可视化界面开发、网络、系统编程、数据分析、机器学习、网络爬虫、科学计算 著名的网站使用python实现的:雅虎地图、谷歌的很多
原创
206阅读
0评论
0点赞
发布博客于 4 年前

Python-3.5.2-AMD-64bit

Python 3.5.2是TensorFlow支持的版本,适合用来进行机器学习和数据挖掘
rar
发布资源于 4 年前

Python学习笔记(二)

1.d=4 将整型对象”4” 赋值给变量d 2.一切数据都是对象 自行车称为对象,自行车的零件称之为自行车的属性 对象方法:导向系统、驱动系统、制动系统等等 3.一切变量都是对数据对象的一个引用 引用:当数据对象赋值给某个变量时,则该变量引用了该数据对象 4. 5.引用计数 假设对象“sdf”被创建出来,则字符串的引用计数为3,然后依次创建相同对象,则进行累加,然后再建一个整型
原创
178阅读
0评论
0点赞
发布博客于 4 年前

Python学习笔记(一)

python 是解释性语言,全程是解释性的脚本语言,而C是编译型语言 命令:python 文件名.py而C语言则需要在每次修改之后重行编译一下gcc –c 文件名 –o 编译后的文件名脚本解释性语言和编译型语言的内部机制 脚本解释性语言的内部机制:在运行脚本之前,得到结果之后1. python 先将脚本编译成字节码(pyc、pyo)2. python 虚拟机解释并运行字节码文件编译型
原创
200阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(十)

机器学习的步骤 SVM核心思想:最大间隔 SVM:核方法 SMO Hinge loss Regularization
原创
333阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(九)

线性回归 单变量线性回归 多变量 损失函数 最小化损失函数 梯度下降 学习率与梯度下降 线性判定边界 多分类 损失函数:hinge loss/支持向量机
原创
422阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(八)

共轭函数 共轭函数的基本性质 共轭函数的进一步性质 拉格朗日量与拉格朗日对偶函数 对偶函数重要性质 对偶问题 线性约束优化问题的对偶问题 最小化向量范数 最大熵问题 对偶性 Slater条件 满足强对偶性的例子 KKT条件 KKT条件使用 使用KKT条件解决优化问题例子 支持向量机最简单的形式——分类问题
原创
248阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(七)

优化问题 极大似然估计与最小二乘法例子 凸优化问题 凸优化的应用 凸集合和凸函数的定义 函数的上镜图 凸组合 集合的凸包与函数凸闭包 集合的凸包与函数的凸闭包的性质 凸集合与凸函数的性质 算数几何平均不等式与柯西不等式 凸集合和凸函数的性质 凸集合性质 凸函数的性质 凸集分离定理 共轭函数
原创
269阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(六)

矩阵标准型 矩阵的变换 相似变换 相似变换下不变的性质 矩阵的相似标准型 线性映射的体积膨胀系数 例子 例题:秩 例子:相似标准型 小结 方阵的相合变换 相合不变量 方阵的正交相似变换 方阵的正交相似标准阵 主成分分析 PCA的步骤 长方矩阵的奇异值分解 多元函数的二阶逼近 极大似然估计的渐进正态性质 小结
原创
272阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(五)

线性空间 线性空间与基 例子:坐标系的选取 小结:线性空间与基 线性映射 线性变换的矩阵描述 线性映射与矩阵 线性映射与矩阵(小结) 几何变换 简单递归-斐波那契数列 线性模型递归 线性回归 几何逼近 最小二乘法(统计)
原创
203阅读
0评论
0点赞
发布博客于 4 年前

Mahout基本原理

Point 1:什么是Mahout? Mahout 是Apache的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。Mahout 是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mah
原创
595阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(四)

参数估计:点估计和区间估计 常用的数学记号 参数估计问题 矩估计 矩估计的基本定理 点估计:矩估计的例子(两点分布的参数估计) 点估计:矩估计(正态分布的参数估计) 点估计:极大似然估计 极大似然估计基本原理:最大化似然函数 点估计的评判准则 相合性 正态分布的参数估计 无偏性 有效性 置信区间
原创
257阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(三)

常用的数学记号 黎曼积分 微积分基本定理:牛顿-莱布尼茨公式 不定积分的例子 多变量函数的积分 积分小结 离散随机变量 离散型随机变量是求和 连续随机变量 连续型随机变量是积分 如何理解概率 贝叶斯公式 参数估计 先验分布和后验分布 共轭分布 特殊分布的特殊函数 小结 随机变量的矩 切比雪夫不等式 随机变量随机系数 同一个随机变量的特征函数的重要性质 不同的随机变量的特征函数的重要性质 一个
原创
230阅读
0评论
1点赞
发布博客于 4 年前

机器学习中的必修数学(二)

常见的数学记号 极限 极限如何比较无穷小? 下面写错了,应该是cos(x) 无穷小阶数 无穷小也可以互相比较 利用多项式类型无穷小,可以定义无穷小的阶数 两边夹定理/夹逼定理 重要极限 微分学 函数的高阶导数 初等函数的导数 多元函数-偏导数 高阶偏导数 偏导数的例子 下面不是log,而是ln 求导法则 求导数例子 泰勒级数 泰勒级数的例子 罗比塔法则 求解简单的微分方程 牛顿法与梯度
原创
562阅读
0评论
0点赞
发布博客于 4 年前

机器学习中的必修数学(一)

机器学习的领域 基本的机器学习算法的分类 得分函数 如图,经过一系列的计算,最后得到的概率就叫得分函数 4.损失函数 得分函数与真实数据比较之后的误差叫做损失函数 机器学习中的算法简介 无监督学习(连续型):SVD、PCA、K-means 无监督学习(离散型):Apriori、FP-Growth、Hidden Markov Model 监督学习(连续型):Regression(Lin
原创
2935阅读
2评论
1点赞
发布博客于 4 年前

数据挖掘中的可视化方法

数据可视化 数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。[1] 它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化
原创
5140阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之模糊集与模糊逻辑

1.模糊集 模糊这个概念来源于显示世界中常见的模糊线性,比如“下雨”难以精确的描述常见的自然现象,因为他可能发生在任何地方,有不同的强度等等,因此是一种模糊现象 2. 隶属度函数 若对论域(研究的范围)U中的任一元素x,都有一个数A(x)∈[0,1]与之对应,则称A为U上的模糊集,A(x )称为x对A的隶属度。当x在U中变动时,A( x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近于1
原创
4457阅读
0评论
4点赞
发布博客于 4 年前

数据挖掘之遗传算法

自然演变是一种基于群体的优化过程,在计算机上对这个过程进行仿真,产生了随机优化技术,在应用于解决现实世界中的难题时,这种技术常胜过经典的优化方法,遗传算法就是根据自然演变法则开发出来的遗传算法的基本原理 遗传算法(GA)是不需要求导的随机优化方法,它以自然选择和演变过程为基础,但是联系又是不牢靠的 遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物
原创
1942阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之图挖掘

图挖掘 传统的数据挖掘任务,比如关联规则挖掘、市场购物篮分析和聚类分析等,都是试图从一个具有单一关系的独立实例集中寻找模式 许多真实数据集描述的都是通过多种关系连接在一起的各种实体类型,应当小心妥善处理由于样本之间连接而导致的潜在关系,事实上,记录联动应该是可以利用的信息,显然,这些信息可以用来提高学习模型的预测准确度,:连接对象的属性往往是相关的,并且拥有共同点的对象之间往往有连接存在,作为一
原创
8384阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之Web挖掘和文本挖掘

Web 挖掘 在分布式信息环境中,文档或对象通常被链接在一起,以便于互相访问,这种提供信息的环境包括WWW和在线服务,用户可以通过某些工具从一个对象转到另一个对象Web挖掘任务划分为4个任务: A: 寻找资源,这是一个从Web的多媒体资源中在线或离线检索数据的过程 B: 信息的选择和预处理,在之前的子任务中检索出不同种类的原始数据后,这个子任务负责转换这些是数据 C: 总结,总结是在一个和
原创
6185阅读
0评论
1点赞
发布博客于 4 年前

数据挖掘之关联规则

用于数据挖掘的机器学习方法,分为参数化方法和非参数化方法,在用于密度估计、分类或回归的参数化方法中,假定最终模型在整个输入空间上有效在回归中,推导出一个线性模型后,把它应用于将来所有的输入,在分类中,假定所有样本(训练样本和新的检验样本)都来自于同一个密度分布,在这些情况下,模型是对整个n维样本空间都有效的全局模型参数化方法的优点是,用少量的参数简化了建模问题,主要缺点是初始假设在很多实际问题中
原创
1205阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之聚类分析

聚类分析是依据样本间关联的量度标准将样本自动分成几组,使同一群组内的样本相似,而不同群组的样本相异的一组方法,聚类分析系统的输入是一组样本和一个度量两个样本间相似度(或相异度)的标准,聚类分析的输出是数据集的几个组,这些组构成一个分区或者一个分区结构聚类分析是根据所度量或感知到的内在特征或相似性,对对象分组或聚类分析的正式研究方法和算法,聚类的样本用度量指标的一个向量来表示,更正式的说法是,用多维
原创
2846阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之集成学习

数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值,这样的一个过程分为两个连续的阶段:A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型,B:检验阶段—使用未在训练集中用到的检验样本评估训练阶段生成的预测模型为了提高模型的准确性,可以使用集成学习的高效算法,他的核心思想是组合训练样本生成的各种预测模型的结果,主要动机就是减少错误率集成学习方法论 在训练阶段,集成方法
原创
518阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之人工神经网络

人工神经网络(ANN)是人脑的抽象计算模型,是由相互连接的人工神经元之间相互连接,将这个网络看作一个图表,神经元就可以表示为节点,神经元之间的相互连接表示为边神经网络是一个很多节点通过有向链接组成的网络结构哦,每个节点代表一个处理单元,节点之间的连接表示所连接的节点之间的因果关系,所有节点都是自适应的,这就意味着这些节点的输出同这些节点的输出同这些节点的可修改参数值有关人工神经网络是一个大型并行
原创
1057阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之决策树与决策规则

决策树和决策规则是解决实际应用中分类问题的强大的数据挖掘方法 一般来说,分类是一个学习函数的过程,该函数把数据项映射到其中一个预定义的类中,若一个样本集包含属性值向量和一个相应的类,则基于归纳学习算法的每个分类就指定为该样本集的输入,归纳学习的目标是构建一个分类模型,称为分类器,他可以更具有效的属性输入值预测某个实体所属的类,换句话说,分类是吧某个不连续的标识值(类)分配给未标识的记录的过程 分
原创
4133阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之统计方法

统计学是一门收集、组织数据并从这些数据集中得出结论的科学,描述和组织数据集的一般特性是描述性统计学的主题领域,而怎样从这些数据中退出结论是统计推理的主题统计判断 在统计分析中观测到的所有值,不管其数量是有限还是无限,都称为总体,这个术语适用于任何统计对象,总体中观测值的数量称为总体的大小,一般来说,总体可能是无限的或有限的,但由于一些有限的总体太大,理论上,就把他们假定为无限的 根据已知的数据
原创
952阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之从数据中学习

生物系统以数据驱动的方式学习如何处理环境中未知的统计属性 每个预测学习过程都包括两个阶段: 从已知样本集中学习或估计系统中未知的相关性 用估计得出的相关性为系统将来的输入值预测新的输出 这两个步骤对应于两种经典的推力模型:归纳(从特殊案例或训练数据中发展处一般依赖关系或模型)和演绎(从一般模型和给出的输入值中发展出特殊的输出值案例)估算出的模型一位置,学习函数可应用于任何地方,也就是说,学
原创
402阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之数据归约

对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果, 2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据 3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可
原创
7591阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘之数据准备

原始数据的表述 两种常见的数据类型:数值型和分类型 数值型值包括实型变量和整数变量,比如年龄、速度或长度,数值型特征有两个重要的属性:其值有顺序关系和距离关系 分类型变量只有两个值:相等或不等,再建立一种等同关系,比如眼睛颜色、性别等 2.基于变量值的变量分类,根据它是连续型变量还是离散型变量 连续型变量也成为定量型或度量型变量,可以使用间隔尺度或比例尺度来衡量,这两种尺度都允许在理论上无
原创
925阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘的概念

现在科学和工程用“首用原则模型”来描述物理、生物和社会系统,这种方法就是先建立基本的科学模型,比如扭动运动定律或者麦克斯韦的电磁公式,然后根据模型建立机械工程或电子工程方面的各种应用,在这种方法中,用实验数据来验证基本的“首要原则模型”,并估计一些难以直接测量或者根本不可能直接测量的参数,但是在很多领域,基本的“首要原则模型”都是未知的,或者所研究的系统太复杂了,难以进行数学定型,随着计算机的广发应
原创
454阅读
0评论
0点赞
发布博客于 4 年前

漏斗模型和路径分析

在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东西提交到订单,直到订单完成在线支付,上面的三个步骤走下来,买家人数越来越少,这个过程就是漏斗模型,漏斗模型的主要分析目的是针对网站运营过程中的各个关键
原创
6080阅读
2评论
1点赞
发布博客于 4 年前

运营效果分析的典型应用

业务落地应用得到检验,有两类检验,A、模型本身是否稳定,即在新数据中得到的验证结果是否与模型拟合时的表现相一致 B、运营效果分析,好的模型、好的分析报告能否在业务实践中通过业务图但对的工作有效转化成为生产力为什么要做运行效果分析? A、衡量运营工作的效率和效果 B、指导运营技巧的优胜劣汰 C、提升运营团队的专业能力 D、增强运营工作的商业价值统计技术在数据化运营中最重要最常见的应用
原创
2261阅读
0评论
1点赞
发布博客于 4 年前

用户特征分析的应用

用户特征分析不仅仅是数据化运营的的基础,即使是传统行业,只要企业足够关注用户,一定定会进行用户特征分析 2.用户特征分析所使用的典型业务场景 A.寻找目标客户 包括虚拟的目标用户特征分析,这种场景主要适用于企业还没有实际使用的用户,业务方按照业务逻辑假设或者圈定一些典型的特征 B.寻找运营抓手 运营抓手指的是通过运营的方式可以用于改善和提升客户满意度的一些特定行为字段,常见的所谓运营抓手包
原创
4297阅读
0评论
1点赞
发布博客于 4 年前

预测响应模型的应用

1.预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待 2.预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归 3. 神经网络是一组互相连接的输入、输出单元,其中每个连接都会与一个权重相关联 人工神经网络的结构大致分为两类:前向型网络、反馈型网络 前向型网络:是指传播方向是从输入和输出端,并且没有任何的反馈,所谓的反馈型网络
原创
8107阅读
0评论
1点赞
发布博客于 4 年前

聚类分析的典型应用和技术

如何尽量保证数据的抽取正确反映业务需求? A:真正熟悉业务背景 B:确保抽取的数据所对应的当时业务背景与现在的业务需求即将应用的业务背景没有明显的重大改变 2.数据抽样 “抽样”对于数据分析和挖掘来说是一种常见的前期数据处理技术和手段,主要原因是如果数据全集的规模太大,针对数据全集进行分析计算不但会消耗更多的运算资源,还会显著增加运算分析的时间,甚至太大的数据量在数据分析挖掘软件运行时崩溃,
原创
10852阅读
0评论
1点赞
发布博客于 4 年前

数据挖掘中常见的数据处理技巧

如何尽量保证数据的抽取正确反映业务需求? A:真正熟悉业务背景 B:确保抽取的数据所对应的当时业务背景与现在的业务需求即将应用的业务背景没有明显的重大改变 2.数据抽样 “抽样”对于数据分析和挖掘来说是一种常见的前期数据处理技术和手段,主要原因是如果数据全集的规模太大,针对数据全集进行分析计算不但会消耗更多的运算资源,还会显著增加运算分析的时间,甚至太大的数据量在数据分析挖掘软件运行时崩溃,
原创
4038阅读
0评论
6点赞
发布博客于 4 年前

数据挖掘建模的优化和限度

一句非常经典的广告语—“没有最好,只有更好”,揭示了“任何事物的发展和进步都是可以无限深入的”,一个人可以不断的进步,一个数据挖掘的模型也是可以不断的完善和优化的,只是,数据挖掘模型的每一次优化都需要有资源的投入,因此在模型优化和资源投入之间,又有一个微妙的平衡点—性价比,这个平衡点决定了模型的优化和完善是有限度的任何一个数据挖掘模型都是针对某一个特定具体的业务需求的,数据挖掘模型总是能够提高精确
原创
1770阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘中常见的分析项目类型

1.目标用户的特征分析 在目标用户的典型特征分析钟,业务场景可以是试运营之前的虚拟特征探索,也可以是试运营之后来自真实运营数据基础上的分析、挖掘与提炼 虚拟特征探索:由于目标用户在真实的业务场景中还没有产生,并没有与真实业务环境一致的数据来源可以用于分析目标用户特点,因此只能通过简化、类比等方法寻找与真实业务环境相近的数据来源,然后进行模拟和探索,并从中发现一些可以借鉴和参考的目标用户特征,然后
原创
1242阅读
0评论
0点赞
发布博客于 4 年前

Kafka原理(一)

Point 1:什么是Kafka? Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: ● 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。 ● 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。 ● 支持Kafka Server间的消息分区,及分布式消费,同时保证每个Par
原创
216阅读
0评论
0点赞
发布博客于 4 年前

Tomcat原理

Point 1:什么是Tomcat? Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,是目前比较流行的Web 应用服务器。 Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。Point 2:
原创
220阅读
0评论
0点赞
发布博客于 4 年前

数据挖掘的主要技术

决策树—分类、预测什么是决策树? 决策树是一种非常普遍的数据挖掘技术,顾名思义,决策树就是建模过程类似于一棵树的成长过程,从树根、树干、分支,分叉,最后到树叶,在决策树里,所分析的数据样本,先集成为一个树根,然后进行层层的分支,最后形成一个个的节点,每个节点代表一个结论决策树的优点有哪些? 1.决策树的优点在于决策树的构造不需要任何领域的知识,很适合探索性的数据挖掘发现,而且可以处理高纬度的数
原创
867阅读
0评论
0点赞
发布博客于 4 年前

Tengine原理

Point 1:什么是Tengine? Tengine是由淘宝网发起的Web服务器项目。它在Nginx的基础上,针对大访问量网站的需求,添加了很多高级功能和特性。它的目的是打造一个高效、安全的Web平台。Point 2:Nginx 特性 模块化设计,较好的扩展性 高可靠性:master/worker 支持热部署:不停机更新配置文件、更换日志文件、更新服务器版本 低内存消耗:10000
原创
624阅读
0评论
0点赞
发布博客于 4 年前

Redis基本命令(二)

集合类型 增加删除命令 sadd key member [ member .... ] srem key member [ member .... ] sadd 命令用来向集合中增加一个或多个元素,如果键不存在则会自动创建。因为在一个集合中不能有相同的元素,所以如果要加入的元 素已经存在与集合中就会忽略这个元素。返回值是成
原创
277阅读
0评论
0点赞
发布博客于 4 年前

Redis基本命令(一)

keys 命令 ? 匹配一个字符 * 匹配任意个(包括0个)字符 [] 匹配括号间的任一个字符,可以使用 "-" 符号表示一个范围,如 a[b-d] 可以匹配 "ab","ac","ad" \x 匹配字符x,用于转义符号,如果要匹配 "?" 就需要使用 \?判断一个键值是否存在 exists key
原创
206阅读
0评论
0点赞
发布博客于 4 年前

Redis原理

Point 1:什么是Redis? Redis 是一个开源,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bitmaps, hyperloglogs 和 地理空间(geospatial) 索引半径查询。 Redi
原创
196阅读
0评论
1点赞
发布博客于 4 年前

Spark Streaming---WindowBasedTopWord(java)

package com.spark.streaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.
原创
162阅读
0评论
1点赞
发布博客于 4 年前

Spark Streaming---UpdatestateBykey(java)

package com.spark.streaming;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java
原创
444阅读
0评论
0点赞
发布博客于 4 年前

Spark Streaming----Transform Operation(java)

package com.spark.streaming;import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;
原创
341阅读
0评论
0点赞
发布博客于 4 年前

Spark Streaming---PersistMySQL Work Count(java)

package com.spark.streaming;import java.sql.Connection;import java.sql.Statement;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java
原创
348阅读
0评论
1点赞
发布博客于 4 年前

Spark Streaming---Streaming Word Count(java)

package com.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;im
原创
331阅读
0评论
1点赞
发布博客于 4 年前

Spark Streaming---HDFSwordcount

package com.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;im
原创
265阅读
0评论
1点赞
发布博客于 4 年前

Linux工具--Xshell & XFtp使用

XShell:http://rj.baidu.com/search/index/?kw=XshellXFtp : http://rj.baidu.com/search/index/?kw=XftpXShell 和 XFtp注册码:101210-450789-147200远程连接Linux工具:XshellStep 1: 下载XShell并安装Step 2: 打开XShell,点击新建 S
原创
1244阅读
0评论
5点赞
发布博客于 4 年前

SparkSQL---UDAF(scala)

package com.spark.sparksql.udfimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkContext}/**
原创
371阅读
0评论
0点赞
发布博客于 4 年前

SparkSQL---UDF(java)

package com.spark.sparksql.udfimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkContext}/**
原创
791阅读
1评论
2点赞
发布博客于 4 年前

SparkSQL---开窗函数(java)

package com.spark.sparksql.save;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveContext
原创
4004阅读
0评论
1点赞
发布博客于 4 年前

SparkSQL---Save(Java)

Point 1:package com.spark.sparksql.save;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLConte
原创
288阅读
0评论
2点赞
发布博客于 4 年前

Spark---Datasource(JDBC)---Scala

package com.spark.sparksql.datasource.scalaimport java.sql.DriverManagerimport java.utilimport org.apache.spark.sql.types.{StructType, IntegerType, StringType, StructField}import org.apache.spark.sql
原创
424阅读
0评论
0点赞
发布博客于 4 年前

Spark---Datasource(JSON)---Scala

package com.spark.sparksql.datasource.scalaimport org.apache.spark.sql.types.{StructType, IntegerType, StringType, StructField}import org.apache.spark.sql.{SaveMode, Row, SQLContext}import org.apache
原创
189阅读
0评论
0点赞
发布博客于 4 年前

Spark---Datasource(JSON)---java

package com.spark.sparksql.datasource.java;import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api
原创
626阅读
0评论
0点赞
发布博客于 4 年前

Spark---Datasource(JDBC)---java

package com.spark.sparksql.datasource.java;import java.sql.Connection;import java.sql.DriverManager;import java.sql.Statement;import java.util.ArrayList;import java.util.HashMap;import java.util.L
原创
392阅读
0评论
0点赞
发布博客于 4 年前

Spark--Datasource(Hive)

package com.spark.sparksql.datasource.java;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;
原创
297阅读
0评论
0点赞
发布博客于 4 年前

SparkSQL---Dataframe(Reflection)

Point 1:javapackage com.spark.sparksql.dataframe.java;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.s
原创
246阅读
0评论
0点赞
发布博客于 4 年前

SparkSQL---Dataframe(Dynamic)

Point 1:javapackage com.spark.sparksql.dataframe.java;import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.sp
原创
254阅读
0评论
0点赞
发布博客于 4 年前

SparkSQL---DataFrame

Point 1:DataFrameCreate package com.spark.sparksql.dataframe.java;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org
原创
162阅读
0评论
0点赞
发布博客于 4 年前

Spark共享变量---Scala

Point 1:AccumulatorValue package com.spark.sharevariables.scalaimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Administrator on 2017/08/02. * 累加器中的全局变量只能由driver端读取,task只管干活,不能读如果用
原创
2119阅读
0评论
2点赞
发布博客于 4 年前

Spark共享变量---Java

Point 1:AccumulatorValue package com.spark.sharevariables.java;import java.util.Arrays;import java.util.List;import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.s
原创
694阅读
0评论
0点赞
发布博客于 4 年前

Session一致性配置---Redis

前提: Redis—URL:http://blog.csdn.net/ymf827311945/article/details/76307483 反向代理—URL:http://blog.csdn.net/ymf827311945/article/details/76273489Step 1: URL:http://download.csdn.net/detail/ymf827311945/9
原创
1549阅读
0评论
1点赞
发布博客于 4 年前

Redis_Jar_For_Session

使用Redis配置Session一致性所需要的jar包
rar
发布资源于 4 年前

Redis配置

Step 1: URL:https://redis.io/download 到上面的URL下载RedisStep 2: 在node11节点执行命令mkdir -p /opt/apps/rediscd /opt/apps/redisStep 3: 使用xftp将下载的安装包上传到上面指定的路径 Step 4: 在node11节点执行命令,对安装包进行解压tar -xvf /opt/app
原创
1114阅读
0评论
1点赞
发布博客于 4 年前

Session一致性配置---memcached

前提: 必须配置反向代理 http://blog.csdn.net/ymf827311945/article/details/76273489Step 1: 在node11节点上执行命令,装载DVD磁盘mount /dev/cdrom /mnt/Step 2: 在node11节点执行命令,安装memcachedyum -y install memcachedStep 3: URL:http
原创
320阅读
0评论
0点赞
发布博客于 4 年前

Memcachedlib_For_Session

使用Memcached解决session一致性问题所需要的jar包
zip
发布资源于 4 年前

Tengine反向代理配置

Step 1: 在node11节点执行命令,对tengine的配置文件进行编辑vi /opt/apps/tengine/conf/nginx.conf在nginx.conf配置文件http下面添加属性 upstream test { server 192.168.80.11:8080 weight=2; server 192.168.80.1
原创
4119阅读
0评论
0点赞
发布博客于 4 年前

Tomcat配置

URL:http://archive.apache.org/dist/tomcat/tomcat-7/v7.0.61/src/ Version:7.0.61Step 1: 在node11节点上执行命令mkdir -p /opt/apps/tomcatcd /opt/apps/tomcat/Step 2: 使用xftep将下载的文件上传到上面的路径下 Step 3: 在node11节点上执
原创
241阅读
0评论
0点赞
发布博客于 4 年前

Tengine健康检查模块配置

Step 1: 在node11节点执行命令vi /opt/apps/tengine/conf/nginx.conf添加如下属性: upstream test { server 192.168.80.11:8080 weight=2; server 192.168.80.12:8080 weight=1; check i
原创
3903阅读
0评论
1点赞
发布博客于 4 年前