大数据
数据挖掘者
热爱大数据,对算法感兴趣,博客里写我对算法的理解。
展开
-
数据挖掘中,DIANA算法
层次聚类方法是对给定的数据集进行层次的分解,直到某种条件满足为止。一般来说,有两种类型的层次聚类方法:第一,凝聚层次聚类方法;第二,分裂层次聚类方法。其中DIANA算法是属于层次聚类方法。一,DIANA算法属于分裂的层次聚类,与凝聚的层次算法(也就是AGNES),它采用一种自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇,或者达到某个终结点,比如达到原创 2015-10-21 16:20:28 · 14069 阅读 · 6 评论 -
安装Hive过程中,出现Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxExcepti
一,在安装hive过程中,输入hive命令,出现了如下错误:Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%原创 2017-05-24 23:15:14 · 13164 阅读 · 1 评论 -
hive命令出现问题Failed with exception Java.io.IOException:java.lang.IllegalArgumentException: java.NET.URI
一,问题描述: 登录到hive数据仓库后,输入一些命令,例如(show databases ,show tables),会报出如下错误:Failed with exception Java.io.IOException:java.lang.IllegalArgumentException: java.NET.URISyntaxException: Relative path in absol原创 2017-05-25 00:32:13 · 17073 阅读 · 4 评论 -
cdh 5.8 hbase安装Phoenix 4.8的过程
一,Phoenix的介绍 1,Phoenix, (“凤凰”),它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。2,Apache Phoenix是构建在HBase之上的关系型数据库层,作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。二,Phoenix的下载 1,官网上下载的Phoenix的都会在文件名上标注需要搭配的hbase版本号,注意要一致。 2,要注原创 2017-05-16 19:24:28 · 3276 阅读 · 0 评论 -
mac 安装tesseract、pytesseract, 实现图片里文字的识别
一, tesseract-OCR的介绍1,tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2,用tesseract可以识别的图片中字体,主要有以下一些特点:使用一个标准字体可以使用复印或者拍照,但是必须字体要清晰,没有痕迹图片里没有歪歪斜斜的字体另外没有超出图片中的字体,也没有残缺的...原创 2018-11-28 16:05:20 · 7532 阅读 · 3 评论