数据挖掘
文章平均质量分 90
HarmonyOS Coder369
这个作者很懒,什么都没留下…
展开
-
Greendao --- demo学习
一、Greendao简介 Greendao是一款用于数据库创建与管理的框架,由于原生SQLite语言比较复杂繁琐,使得不少程序员不得不去学习SQLite原生语言,但是学习成本高,效率低下,所以不少公司致力于开发一款简单的数据库管理框架,较为著名的就有Greendao和ORMLite,但是就数据分析来看,Greendao的效率是高于ORMLite及其他框架的,是目前该行业的领先者。也因为Gr...原创 2018-04-07 10:59:03 · 428 阅读 · 0 评论 -
centos 6 安装rrdtool
源码安装rrdtool没成功,依赖太多了,下面进行yum 安装rrdtool,首先加入dag的yum.[root@localhost]# cd /etc/yum.repos.d/[root@localhost]# vim dag.repo[dag]name=Dag RPM Repository for Red Hat Enterprise Linuxbaseurl=ht原创 2017-01-19 20:07:48 · 1251 阅读 · 0 评论 -
Ganglia 权威指南-安装Ganglia过程
Ganglia由gmond、gmetad和gweb三部分组成gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。gmond在每台主机上完成实际意义上的指标数据收集工作,并通过侦听/通告协议和集群内其他节点共享数据。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。gm原创 2017-01-19 15:34:41 · 455 阅读 · 0 评论 -
12306---抢票分析
研究了12306官网每5秒自动查询是否有票的相关代码,是利用了ajax技术对指定接口进行查询,如果返回值为有票,那就告知用户有票了并进入订票界面。官网用5秒一次的刷新速度,是保证了服务器在全国同时购票的几万人每5秒一次访问的情况下不崩溃而设定的较为理想的值,但很多抢票软件都是以更短的时间轮询以期在最快的时间内获取是否有票的信息。为保证尽可能地刷到票,我就把这个时间设定为0.5秒,并将超时时间设定为原创 2016-12-26 16:15:46 · 2417 阅读 · 1 评论 -
mysql limit查询优化方法(offset偏移量)
当网站达到一定的规模时,网站的各种优化是必须要进行的。 而网站的优化中,针对数据库各种优化是最重点的了。 mysql数据库中的查询语句有关limit语句的优化。 一般limit是用在分页的程序的分页上的,当应用数据量够小时,也许感觉不到limit语句的任何问题,但当查询数据量达到一定程度时,limit的性能就会急剧下降。 这个是通过大量实例得出来的结论。 对同一张表在不同的原创 2016-12-26 10:34:19 · 4217 阅读 · 0 评论 -
信息熵---信息不确定度
2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性最大,熵最大。3 应用数据挖掘中的决策树。构建决策树的过程,就是减小原创 2016-12-06 11:35:41 · 11578 阅读 · 0 评论 -
2012届KDD Cup 2011届KDD Cup 2009届KDD Cup
2012届KDD Cup Track1任务:社交网络中的个性化推荐系统根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表Track2任务:搜索广告系统的pTCR点击率预估提供用户在腾讯搜索的查询词(quer原创 2016-12-05 09:54:31 · 737 阅读 · 0 评论 -
KDD 99数据集的应用
背景知识KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。竞赛主页在这里。下面是原创 2016-12-05 09:50:28 · 14498 阅读 · 0 评论 -
CentOS下Nagios的安装与配置(上半篇)
一、Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。 Nagios原名为NetSaint,由Ethan Galstad开发并维护至今。NAGIOS是一个缩写形原创 2016-12-04 11:50:17 · 630 阅读 · 0 评论 -
CentOS下Nagios的安装与配置(下半篇)
八、查看初步配置情况8.1 启动完成之后,登录Nagios Web监控页http://192.168.1.108/nagios/ 查看相关信息。8.2 点击左面的Current Status -> Hosts 可以看到所定义的三台主机已经全部UP了。8.3 点击Current Status -> Services 查看服务监控情况。看到Nagios-Li原创 2016-12-04 11:51:56 · 720 阅读 · 0 评论 -
Hadoop安装配置(VMware + CentOS 6.5 64位)
环境系统环境:VMware + CentOS 6.5 64位。Hadoop版本:基于原生 Hadoop 2,可适合任何 Hadoop 2.x.y 版本,本文以Hadoop 2.6.0 (stable) 为例。创建hadoop用户创建新用户hadoop(推荐) :sudo useradd -m hadoop -s /bin/bash原创 2016-12-04 11:33:46 · 1238 阅读 · 0 评论 -
贝叶斯判别法做了,中途报了以下错误:
贝叶斯判别法做了,中途报了以下错误:>> ObjBayes=NaiveBayes.fit(training,group);??? Error using ==> NaiveBayes.fit>gaussianFit at 535The within-class variance in each feature of TRAINING must be positive. The with原创 2016-12-02 11:24:53 · 2167 阅读 · 1 评论 -
数据分析方法--PCA
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数原创 2016-11-29 15:58:31 · 6692 阅读 · 1 评论 -
Volley完全解析
1. Volley简介我们平时在开发Android应用的时候不可避免地都需要用到网络技术,而多数情况下应用程序都会使用HTTP协议来发送和接收网络数据。Android系统中主要提供了两种方式来进行HTTP通信,HttpURLConnection和HttpClient,几乎在任何项目的代码中我们都能看到这两个类的身影,使用率非常高。不过HttpURLConnection和HttpCl转载 2016-07-08 13:00:50 · 614 阅读 · 0 评论 -
Python爬虫实战 抓取淘宝照片
目标1.抓取淘宝MM的姓名,头像,年龄2.抓取每一个MM的资料简介以及写真图片3.把每一个MM的写真图片按照文件夹保存到本地4.熟悉文件保存的过程1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之原创 2016-06-22 11:13:54 · 1730 阅读 · 0 评论 -
网络爬虫基本原理
网络爬虫基本原理 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将原创 2016-07-06 18:25:49 · 362 阅读 · 0 评论 -
ganglia监控的数据 rrd数据文件
为了给ganglia监控的数据加上报警的功能,在jenkins里加了一个定时job,运行报警的脚本。脚本需要对ganglia记录的数据进行分析,以下是一点粗浅的理解。rrdtool的本质是用于画图的,所以当我运行rrdtool fetch /var/lib/ganglia/rrds/myapp/__SummaryInfo__/mycount.rrd AVERAGE时,出来的结果14原创 2017-01-19 20:10:24 · 2235 阅读 · 0 评论 -
RRDTool使用方法简介--Ganglia数据库
目录1、RRDTool简介2、所需了解的术语3、RRDTool工具绘图流程4、软件安装5、RRDTool绘图工作流程6、实战案例7、总结说明:博文中涉及的图片可能不是博主绘制。1、RRDTool简介 RRDTool是一个强大的绘图引擎,它能把以时间序列的数据用图表的的方式直观的表现出来,是由Tobias Oe原创 2017-01-19 20:14:06 · 4198 阅读 · 0 评论 -
集群监控系统Ganglia应用案例
集群监控系统Ganglia应用案例集群监控系统Ganglia应用案例——我们把集群系统投入生产环境后,这时就需要一套可视化的工具来监视集群系统,这将有助于我们迅速地了解机群的整体配置情况,准确地把握机群各个监控节点的信息,全面地察看监控节点的性能指标,使机群系统具有较高的管理性。监视系统的主要目标是从各个监控节点采集监控信息,如CPU温度、CPU利用率、用户数、进程数、内存利用率等,然原创 2017-01-20 20:11:19 · 856 阅读 · 0 评论 -
TensorFlow在Windows安装---学习
1.首先查看TensorFlow目前对Windows支持的python版本要求https://pypi.python.org/pypi/tensorflow/1.1.0rc2截止本文2018年2月27日,要求python是3.5,操作系统64位如果python版本不正确会提示Could not find a version that satisfies the requirement tensor...转载 2018-04-07 10:53:31 · 363 阅读 · 0 评论 -
sklearn包中的分析算法对 数据进行处理
#打开EXCEL文件 excel = xlrd.open_workbook('C:\data.xlsx') #获取第二个sheet sheet = excel.sheets()[3]arr_r=[0,0,0,0,0,0]arr_all = [[0,0,0,0,0,0],[原创 2017-06-04 17:04:10 · 770 阅读 · 0 评论 -
atop就是一款用于监控Linux系统资源与进程的工具
引言Linux以其稳定性,越来越多地被用作服务器的操作系统(当然,有人会较真地说一句:Linux只是操作系统内核:)。但使用了Linux作为底层的操作系统,是否我们就能保证我们的服务做到7*24地稳定呢?非也,要知道业务功能是由系统上跑的程序实现的,要实现业务功能的稳定性,选择Linux只是迈出的第一步,我们更多地工作是不让业务程序成为稳定性的短板。 当我们的服务器出现问题原创 2017-01-24 22:53:43 · 2382 阅读 · 1 评论 -
Python与rrdtool的结合模块
Python与rrdtool的结合模块 rrdtool(round robin database)工具为环状数据库的存储格式,round robin是一种处理定量数据以及当前元素指针的技术。rrdtool主要用来跟踪对象的变化情况,生成这些变化的走势图,比如业务的访问流量、系统性能、磁盘利用率等趋势图,很多流行监控平台都使用到rrdtool,比较有名的为Cacti、Ganglia原创 2017-01-23 18:24:27 · 4268 阅读 · 1 评论 -
Python 字符串操作
Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等) 去空格及特殊符号 s.strip() .lstrip() .rstrip(',') 复制字符串 #strcpy(sStr1,sStr) sStr= 'strcpy'原创 2017-01-23 17:30:42 · 527 阅读 · 0 评论 -
Linux 使用mysql简单教程
如果你会查询这些相关的问题,说明你是一个正在或者准备从事IT的程序猿,对于一个程序猿而言,不会使用linux系统的程序猿不是一好的程序猿哦!因为windows有时候真的让人很抓狂,而本人也相信没有什么习惯是不可以改变的。so以下都是在linux系统中的使用:安装mysql命令 :$ sudo apt-get install -y mysql-server查看mysql的原创 2017-01-23 16:42:13 · 560 阅读 · 0 评论 -
MySQL-python连接socket问题
MySQL-python连接socket问题Python中使用MySQLdb连接数据库时出现以下错误:Traceback (most recent call last): File "/home/monitor_user/serverMonitor.py", line 206, in ServerList = sqlQuery(getMngConn(), "s原创 2017-01-23 16:27:15 · 2894 阅读 · 0 评论 -
在CentOS系统下,主要有两种方法设置自己安装的程序开机启动。
在CentOS系统下,主要有两种方法设置自己安装的程序开机启动。1、把启动程序的命令添加到/etc/rc.d/rc.local文件中,比如下面的是设置开机启动httpd。#!/bin/sh## This script will be executed *after* all the other init scripts.# You can put your own ini原创 2017-01-23 15:59:33 · 369 阅读 · 0 评论 -
CentOS-Mysql-Access denied for user root 更换root 密码
1. 停掉MySQL服务: /etc/init.d/mysqld stop使用safe模式,进行重启: mysqld_safe --skip-grant-tables2使用root账户,无密码登录: mysql -u root选择mysql database:原创 2017-01-23 15:24:04 · 580 阅读 · 0 评论 -
Centos6.5安装mysql不能启动,应该安装mysql-server
Centos6.5安装mysql不能启动,应该安装mysql-servercentos中安装mysql很简单如下命令即可yum install mysql 装好了,运行mysql ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.soc原创 2017-01-23 15:20:51 · 1970 阅读 · 0 评论 -
centos 6.5 安装MySQL-python模块
如果你服务器环境允许yum,安装MySQL-python模块就很简单了[python] view plain copy yum install MySQL-python -y 当然也可以源码安装该模块首先安装 setuptools,下载源代码包:[plain] view plain c原创 2017-01-23 15:05:19 · 2856 阅读 · 0 评论 -
将RRD数据库中数据导入MYSQL中
将RRD数据库中数据导入MYSQL中 一、RRD数据库及RRDTOOL简介意为Round Robin Database。设计理念为按照round-robin的方式进行存储,在一个周期之后(可自己定义),新的数据会覆盖掉原来的数据。所以RRD数据库适合用来存储动态数据,并且不需长期存储。因为是周期性的覆盖旧的数据所以数据库的大小基本上就会固定下来,并不会随着时间而增大。原创 2017-01-23 14:57:46 · 1437 阅读 · 0 评论 -
centos6.5安装python-MySQLdb
centos6.5安装python-MySQLdb命令如下:view plainprint?#yum install python-devel mysql-devel zlib-devel openssl-devel #wget http://downloads.sourceforge.net/project/mysql-python/mysql-p原创 2017-01-23 14:55:50 · 892 阅读 · 0 评论 -
怎样处理服务器负载量过大
一,确认服务器硬件是否足够支持当前的流量。二,优化数据库访问。服务器的负载过大,一个重要的原因是CPU负荷过大,降低服务器CPU的负荷,才能够有效打破瓶颈。而使用静态页面可以使得CPU的负荷最小化。前台实现完全的静态化当然最好,可以完全不用访问数据库,不过对于频繁更新的网站,静态化往往不能满足某些功能。缓存技术就是另一个解决方案,就是将动态数据存储到缓存文件中,动态网页直接调用这些文件,而不必再访原创 2017-01-20 21:31:16 · 9695 阅读 · 0 评论 -
ganglia metric 默认监控项翻译 和 为什么空循环进程会导致CPU占有率很高?
监控项说明监控值Load_oneOne minute load average每分钟的系统平均负载load_one=0.0Load_fiveFive minute load average每5分钟的系统平均负载load_five=0.0Load_fifteenFifteen mi原创 2017-01-20 21:16:01 · 912 阅读 · 0 评论 -
java抓取网页数据
java抓取网页数据获取网页中所有的链接实例分享,使用方法,只要实例化HtmlParser时传入网页地址就可以了效果图复制代码 代码如下:import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import原创 2016-06-20 15:33:43 · 793 阅读 · 0 评论 -
android事件拦截处理机制---详解 onInterceptTouchEven onTouchEvent
前段时间刚接触过Android手机开发,对它的事件传播机制不是很了解,虽然网上也查了相关的资料,但是总觉得理解模模糊糊,似是而非,于是自己就写个小demo测试了一下。总算搞明白了它的具体机制。写下自己的结论,分享之,希望对初学android的人有所帮助布局效果如图所示: 图1参照上图先说说具体得到的结论:1) onInter原创 2016-06-20 15:22:52 · 9276 阅读 · 0 评论 -
ListView与ScrollView冲突的4种解决方案
1.使用网上用的动态改变listview高度的方法,该方法只适用于item布局是LinearLayout布局的情况,不能是其他的,因为其他的Layout(如RelativeLayout)没有重写onMeasure(),所以会在onMeasure()时抛出异常。所以使用限制较大。 Java代码 public class Utility { public st原创 2016-06-15 09:19:51 · 438 阅读 · 0 评论 -
scrollview + listview 只显示一行的解决办法
在开发的过程当中,由于手机屏幕的大小的限制,我们经常需要使用滑动的方式,来显示更多的内容。在最近的工作中,遇见一个需求,需要将ListView嵌套到ScrollView中显示。于是乎有了如下布局: [html] view plaincopyLinearLayout xmlns:android="http://schemas.android.原创 2016-06-15 09:17:02 · 534 阅读 · 0 评论 -
Android 框架练成 教你打造高效的图片加载框架
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/41874561,本文出自:【张鸿洋的博客】1、概述优秀的图片加载框架不要太多,什么UIL , Volley ,Picasso,Imageloader等等。但是作为一名合格的程序猿,必须懂其中的实现原理,于是乎,今天我就带大家一起来设计一个加载网络、本地的图片框架。有人可能会转载 2016-06-30 13:24:42 · 648 阅读 · 0 评论 -
nagios邮件告警设置方法成功版本
nagios邮件告警设置方法成功版本方法/步骤1yum remove sendmail建议先卸载掉系统自带的sendmail,改用postfix来作为邮件告警发出的客户端步骤阅读2并用rpm -qa | grep sendmail来确认sendmail已经卸载步骤阅读3ser原创 2016-06-30 13:09:09 · 2215 阅读 · 0 评论