DM7数据守护集群部署

环境介绍:

三台主机,分别为主库、备库、监视器
在这里插入图片描述

端口规划
在这里插入图片描述

准备工作

主库系统检查
CPU信息检查
#lscpu

内存信息检查
#free -m

检查/proc/sys/vm/overcommit_memory是否设置为0。设置为1或者2时可能会出现操作物理内存有空余,但数据库服务无法申请内存的严重问题。
#cat /proc/sys/vm/overcommit_memory
#vim /etc/sysctl.conf
vm.overcommit_memory=0
#sysctl -p ######使配置文件生效

为避免操作系统内存因大量使用SWAP内存而降低数据库性能,在安装部署时需检查设置相关变量来控制系统对swap的使用倾向,从而使系统最大发挥内存性能。
#vim /etc/sysctl.conf
vm.swappiness = 10
vm.min_free_kbytes = 默认值或按需设置
swappiness的取值范围为1~100,
当操作系统内存不足时,swappiness值建议设置为1;
当系统内存足够时,swappiness推荐设置为10,以提供操作系统最佳性能。
同时也可配合设置vm.min_free_kbytes参数限制值。
注意,当参数vm.min_free_kbytes没有做限制时,建议根据实际情况至少配置一个最小限制值;当操作系统有默认值时,可以不进行改动。

为避免arena分配区开辟过多造成内存损耗,在安装部署时需设置环境变量来限制arena的最大数量,将其写入到dmdba环境变量设置中。
#vim /etc/profile
export MALLOC_ARENA_MAX=1

磁盘信息检查
#df -h

磁盘调度算法检查
#cat /sys/block/sda*/queue/scheduler

DM使用的调度算法是[deadline],上图即是,无需调整。
更改I/O调度方法:
#vim /boot/grub/menu.lst
kernel /boot/vmlinuz-2.6.32-504.el6 ro root=LABEL=/ elevator=deadline rhgb quiet

测试主库磁盘读写速度(/dbdata、/dbbak、/dblog)
#dd if=/dev/zero of=/dbdata/test bs=64k count=4k oflag=dsync

备库系统检查步骤与主库相同

主备库防火墙检查
#systemctl status firewalld
#systemctl stop firewalld
#systemctl disable firewalld

主备库Selinux安全检查
#vim /etc/selinux/config
SELINUX=DISABLED

主备库系统资源限制检查与配置
为了使达梦数据库能够正常运行, 建议用户检查 ulimit 的参数。首先用户使用 dmdba用户进行登录,运行命令(ulimit -a)进行查询。
$ulimit -a
#vi /etc/security/limits.conf
dmdba soft data unlimited
dmdba hard data unlimited
##data seg size建议设置为1048576以上或unlimited,此参数过小将导致数据库启动失败。
dmdba soft fsize unlimited
dmdba hard fsize unlimited
##file size建议设置unlimited(无限制),此参数过小导致数据库安装或初始化失败。
dmdba soft nolife 65536
dmdba hard nolife 65536
##open files建议设置为 65536 以上或 unlimited。
dmdba soft nproc 10240
dmdba hard nproc 10240
##max user processes 最大线程数这个参数建议修改为10240。
dmdba soft nice 0
dmdba hard nice 0
##nice 设置优先级,值越小表示进程“优先级”越高。
dmdba soft as unlimited
dmdba hard as unlimited
##地址空间限制设置为ulimited。
dmdba soft core unlimited
dmdba hard core unlimited
##内核文件大小建议设置为ulimited。
注意:通过systemctl或者systemd service方式设定随机自启动的数据库服务, 其能打开的最大文件描述符、proc数量等不受limits.conf控制,需要修改/etc/systemd/system.conf文件,增加类似DefaultLimitNOFILE=65535重启服务器,才有效果,如下:
DefaultLimitFSIZE=unlimited
DefaultLimitDATA=unlimited
DefaultLimitCORE=unlimited
DefaultLimitNOFILE=65536
DefaultLimitAS=unlimited
DefaultLimitNPROC=10240
DefaultLimitNICE=0
在数据库运行之后,可通过cat /proc/pid号/limits,检查实际资源限制是否生效:
在这里插入图片描述

创建所需的组和用户
#groupadd dinstall
#useradd -g dinstall dmdba
#passwd dmdba
#chown -R dmdba:dinstall /dbdata
#chown -R dmdba:dinstall /dbbak
#chown -R dmdba:dinstall /dblog
#chmod -R 775 /dbdata
#chmod -R 775 /dbbak
#chmod -R 775 /dblog
#mkdir -p /dbdata/dmdata/ ###数据文件
#mkdir -p /dblog/dmlog ###跟踪日志
#mkdir -p /dblog/dmarch #####归档日志

主备库安装DM7并初始化

主备库安装DM7
$ ./DMInstall.bin -i
#/dmdbms/dm8/script/root/root_installer.sh
主库初始化
$ dminit PATH=/dbdata/dmdata/ DB_NAME=DAMENG INSTANCE_NAME=DMSERVER01 page_size=32 log_size=2048

备库初始化
$ dminit PATH=/dbdata/dmdata/ DB_NAME=DAMENG INSTANCE_NAME=DMSERVER02 page_size=32 log_size=2048

主库注册服务
#./dm_service_installer.sh -s /home/dmdba/dmdbms/bin/DmService

主库开启归档
$ disql sysdba
SQL> select arch_mode from v$database;
SQL> alter database mount;
SQL> alter database add archivelog ‘DEST=/dblog/dmarch,type=local,file_size=128,space_limit=700000’;
SQL> alter database archivelog;
SQL> alter database open;

主库脱机备份

#ps -ef | grep dmserver
#systemctl stop DmServiceDMSERVER

$ cp /dbdata/dmdata/DAMENG/dm.ini /home/dmdba/dmdbms/bin/
$ mkdir -p /home/dmdba/fullback #####主备库均创建
$ dmrman
RMAN> backup database ‘/home/dmdba/dmdbms/bin/dm.ini’ full backupset ‘/home/dmdba/fullbak’;
$ scp -p /home/dmdba/fullback/* dmdba@10.xx.xx.2:/home/dmdba/fullbak/

备库脱机还原

$ dmrman
RMAN>restore database ‘/home/dmdba/dmdbms/bin/dm.ini’ from backupset ‘/home/dmdba/fullbak’;
RMAN>recover database ‘/home/dmdba/dmdbms/bin/dm.ini’ from backupset ‘/home/dmdba/fullbak’;

DM7无需执行恢复DB_MAGIC;

配置文件修改

主库
Dm.ini
INSTANCE_NAME=DMSERVER01
ALTER_MODE_STATUS=0
ENABLE_OFFLINE_TS=2
MAL_INI=1
ARCH_INI=1
SVR_LOG = 1
PORT_NUM = 5236 #数据库实例监听端口
DW_PORT = 5336 #守护环境下,监听守护进程连接端口
DW_ERROR_TIME = 60 #接收守护进程消息超时时间
HA_INST_CHECK_FLAG = 1 #检测是否多个实例进程同时启动
RLOG_SEND_APPLY_MON = 64 #统计最近 64 次的日志发送信息
PAPALLEL_PURGE_FLAG = 1
EXCLUDE_RESERVED_WORDS = context,frequence ,domain,precision,off,percent

Dmmal.ini
MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间
[MAL_INST1]
MAL_INST_NAME = DMSERVER01 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
MAL_HOST = 10.xx.xx.1 #MAL系统监听TCP连接的IP地址
MAL_PORT = 5237 #MAL系统监听TCP连接的端口
MAL_INST_HOST = 10.xx.xx.1 #实例的对外服务IP地址
MAL_INST_PORT = 5236 #实例的对外服务端口,和 dm.ini 中的 PORT_NUM 一致
MAL_DW_PORT = 5239 #实例对应的守护进程监听 TCP 连接的端口

[MAL_INST2]
MAL_INST_NAME = DMSERVER2
MAL_HOST = 10.xx.xx.2
MAL_PORT = 5237
MAL_INST_HOST = 10.xx.xx.2
MAL_INST_PORT = 5236
MAL_DW_PORT = 5239

Dmarch.ini
[ARCHIVE_REALTIME]
ARCH_TYPE = REALTIME
ARCH_DEST = DMSERVER02 ##注意:此处写对方实例名
[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL
ARCH_DEST = /dblog/dmarch
ARCH_FILE_SIZE = 128
ARCH_SPACE_LIMIT = 700000

Dmwatcher.ini
[GRP1]
DW_TYPE = GLOBAL
DW_MODE = AUTO
DW_ERROR_TIME = 10
INST_RECOVER_TIME = 60
INST_ERROR_TIME = 10
INST_OGUID = 453331
INST_INI = /home/dmdba/dmdbms/bin/dm.ini
INST_AUTO_RESTART = 1
INST_STARTUP_CMD = /home/dmdba/dmdbms/bin/dmserver
RLOG_SEND_THRESHOLD = 0
RLOG_APPLY_THRESHOLD = 0

备库
Dm.ini
INSTANCE_NAME=DMSERVER02
ALTER_MODE_STATUS=0
ENABLE_OFFLINE_TS=2
MAL_INI=1
ARCH_INI=1
SVR_LOG = 1
PORT_NUM = 5236 #数据库实例监听端口
DW_PORT = 5336 #守护环境下,监听守护进程连接端口
DW_ERROR_TIME = 60 #接收守护进程消息超时时间
HA_INST_CHECK_FLAG = 1 #检测是否多个实例进程同时启动
RLOG_SEND_APPLY_MON = 64 #统计最近 64 次的日志发送信息
PAPALLEL_PURGE_FLAG = 1
EXCLUDE_RESERVED_WORDS = context,frequence ,domain,precision,off,percent

Dmmal.ini
MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间
[MAL_INST1]
MAL_INST_NAME = DMSERVER01 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
MAL_HOST = 10.xx.xx.1 #MAL系统监听TCP连接的IP地址
MAL_PORT = 5237 #MAL系统监听TCP连接的端口
MAL_INST_HOST = 10.xx.xx.1 #实例的对外服务IP地址
MAL_INST_PORT = 5236 #实例的对外服务端口,和 dm.ini 中的 PORT_NUM 一致
MAL_DW_PORT = 5239 #实例对应的守护进程监听 TCP 连接的端口

[MAL_INST2]
MAL_INST_NAME = DMSERVER2
MAL_HOST = 10.xx.xx.2
MAL_PORT = 5237
MAL_INST_HOST = 10.xx.xx.2
MAL_INST_PORT = 5236
MAL_DW_PORT = 5239

Dmarch.ini
[ARCHIVE_REALTIME]
ARCH_TYPE = REALTIME
ARCH_DEST = DMSERVER01 ##注意:此处写对方实例名
[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL
ARCH_DEST = /dblog/dmarch
ARCH_FILE_SIZE = 128
ARCH_SPACE_LIMIT = 700000

Dmwatcher.ini
[GRP1]
DW_TYPE = GLOBAL
DW_MODE = AUTO
DW_ERROR_TIME = 10
INST_RECOVER_TIME = 60
INST_ERROR_TIME = 10
INST_OGUID = 453331
INST_INI = /home/dmdba/dmdbms/bin/dm.ini
INST_AUTO_RESTART = 1
INST_STARTUP_CMD = /home/dmdba/dmdbms/bin/dmserver
RLOG_SEND_THRESHOLD = 0
RLOG_APPLY_THRESHOLD = 0

$ ./dmctlcvt TYPE=3 SRC=/dbdata/dmdata/DAMENG/dmwatcher.ini DEST=/dbdata/dmdata/
$ cd /dbdata/dmdata/GRP1
$ cp dmwatcher.ctl /dbdata/dmdata/DAMENG/
$ scp -p dmwatcher.ctl dmdba@10.xx.xx.2: /dbdata/dmdata/DAMENG/

Mount模式启动主备库
主库
$ dmserver /dmdbms/dm8/data/DAMENG/dm.ini mount
备库
$ dmserver /dmdbms/dm8/data/DAMENG/dm.ini mount

主备库设置OGUID
主库
SQL> sp_set_oguid(453331);
备库
SQL> sp_set_oguid(453331);

修改主备库模式
主库
SQL> alter database primary;
SQL> SP_SET_PARA_VALUE(1, ‘ALTER_MODE_STATUS’, 0);

备库
SQL> alter database standby;
SQL> SP_SET_PARA_VALUE(1, ‘ALTER_MODE_STATUS’, 0);

配置监视器(10.xx.xx.101)

创建所需的组和用户
#groupadd dinstall
#useradd -g dinstall dmdba
#passwd dmdba
#su – dmdba
$ mkdir -p /home/dmdba/dmdbms/
从备库拷贝bin目录至监视器服务器
$scp -rp /home/dmdba/dmdbms/bin dmdba@10.xx.xx.101:/home/dmdba/dmdbms/

Dmmonitor.ini
$ vim /home/dmdba/dmdbms/bin/dmmonitor.ini
MON_DW_CONFIRM = 1 #确认监视器模式
MON_LOG_PATH = /home/dmdba/dmdbms/log #监视器日志文件存放路径
MON_LOG_INTERVAL = 60 #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 32 #每个日志文件最大 32M
MON_LOG_SPACE_LIMIT = 0 #不限定日志文件总占用空间
[GRP1]
MON_INST_OGUID = 453331 #组 GRP1 的唯一 OGUID 值
MON_DW_IP = 10.xx.xx.1:5239 ###监视器到组 GRP1 的守护进程的连接信息
MON_DW_IP = 10.xx.xx.2:5239 #IP 对应 dmmal.ini 中的 MAL_HOST,PORT 对应 dmmal.ini 中的 MAL_DW_PORT
主备库启动dmwatcher
主库
$./dmwatcherd start
备库
$./dmwatcherd start

$ dmmonitor /home/dmdba/dmdbms/bin/dmmonitor.ini

设置dmmonitor开机自启动
$ ll /home/dmdba/dmdbms/bin/service_template/DmMonitorService
$ cd /home/dmdba/dmdbms/bin/service_template/
$ cp DmMonitorService /home/dmdba/dmdbms/bin/
$ cd /home/dmdba/dmdbms/bin/
$ vim DmMonitorService
INI_PATH=/home/dmdba/dmdbms/bin/dmmonitor.ini
#./dm_service_installer.sh -s /home/dmdba/dmdbms/bin/DmMonitorService
其他服务同样方法。

测试同步

收尾工作

配置sqllog.ini文件,默认在data/DAMENG下
$ vim sqllog.ini
[SLOG_ALL]
FILE_PATH =/dblog/dmlog --sql日志存放目录,根据现场环境修改
PART_STOR =1
SWITCH_MODE =1
SWITCH_LIMIT =10000
ASYN_FLUSH =1
FILE_NUM =100
ITEMS =0
SQL_TRACE_MASK =2:3:23:25
MIN_EXEC_TIME =0
USER_MODE =0
USERS =

配置nmon
通过操作系统作业调度功能配置数据库服务器性能监控程序。
$ mkdir -p /home/dmdba/nmon_log
上传nmon脚本文件至该目录下
$crontab -e
0 0 * * * /home/dmdba/nmon_log/nmon -s20 -c4320 -fT -m /home/dmdba/nmon_log > /dev/null 2>&1
0 0 * * * find /home/dmdba/nmon_log -type f -mtime +365 -exec rm -f {} ;

备份设置
通过manager工具登录数据库
代理->创建代理环境
作业->新建作业
在这里插入图片描述

作业步骤->添加
在这里插入图片描述

选择“高级”

在这里插入图片描述

添加删除过期备份作业步骤
在这里插入图片描述

CALL SF_BAKSET_BACKUP_DIR_ADD(‘DISK’,‘/dbbak/dmbak’);
–在会话生效,每次必须增加备份集目录
CALL SF_BAKSET_REMOVE_BATCH (‘DISK’,now()-7,NULL,NULL);
–now()为当前时间,指定删除7天前的备份
在这里插入图片描述

作业调度
在这里插入图片描述

社区地址:https://eco.dameng.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘算法 算法目录 18大DM算法 包名 目录名 算法名 AssociationAnalysis DataMining_Apriori Apriori-关联规则挖掘算法 AssociationAnalysis DataMining_FPTree FPTree-频繁模式树算法 BaggingAndBoosting DataMining_AdaBoost AdaBoost-装袋提升算法 Classification DataMining_CART CART-分类回归树算法 Classification DataMining_ID3 ID3-决策树分类算法 Classification DataMining_KNN KNN-k最近邻算法工具类 Classification DataMining_NaiveBayes NaiveBayes-朴素贝叶斯算法 Clustering DataMining_BIRCH BIRCH-层次聚类算法 Clustering DataMining_KMeans KMeans-K均值算法 GraphMining DataMining_GSpan GSpan-频繁子图挖掘算法 IntegratedMining DataMining_CBA CBA-基于关联规则的分类算法 LinkMining DataMining_HITS HITS-链接分析算法 LinkMining DataMining_PageRank PageRank-网页重要性/排名算法 RoughSets DataMining_RoughSets RoughSets-粗糙集属性约简算法 SequentialPatterns DataMining_GSP GSP-序列模式分析算法 SequentialPatterns DataMining_PrefixSpan PrefixSpan-序列模式分析算法 StatisticalLearning DataMining_EM EM-期望最大化算法 StatisticalLearning DataMining_SVM SVM-支持向量机算法 其他经典DM算法 包名 目录名 算法名 Others DataMining_ACO ACO-蚁群算法 Others DataMining_BayesNetwork BayesNetwork-贝叶斯网络算法 Others DataMining_CABDDCC CABDDCC-基于连通图的分裂聚类算法 Others DataMining_Chameleon Chameleon-两阶段合并聚类算法 Others DataMining_DBSCAN DBSCAN-基于密度的聚类算法 Others DataMining_GA GA-遗传算法 Others DataMining_GA_Maze GA_Maze-遗传算法在走迷宫游戏中的应用算法 Others DataMining_KDTree KDTree-k维空间关键数据检索算法工具类 Others DataMining_MSApriori MSApriori-基于多支持度的Apriori算法 Others DataMining_RandomForest RandomForest-随机森林算法 Others DataMining_TAN TAN-树型朴素贝叶斯算法 Others DataMining_Viterbi Viterbi-维特比算法 18大经典DM算法 18大数据挖掘的经典算法以及代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面,后面都是相应算法的博文链接,希望能够帮助大家学。 目前追加了其他的一些经典的DM算法,在others的包中涉及聚类,分类,图算法,搜索算等等,没有具体分类。 C4.5 C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。详细介绍链接 CART CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接 KNN K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接 Naive Bayes 朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接 SVM 支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接 EM 期望最大化算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。详细介绍链接 Apriori Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接 FP-Tree 频繁模式树算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。详细介绍链接 PageRank 网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接 HITS HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。详细介绍链接 K-Means K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。详细介绍链接 BIRCH BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。详细介绍链接 AdaBoost AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。详细介绍链接 GSP GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。详细介绍链接 PreFixSpan PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。详细介绍链接 CBA 基于关联规则分类算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。详细介绍链接 RoughSets 粗糙集算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。详细介绍链接 GSpan gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。详细介绍链接 Others目录下的算法: GA 遗传算法。遗传算法运用了生物进化理论的知识来寻找问题最优解的算法,算法的遗传进化过程分选择,交叉和变异操作,其中选择操是非常关键的步骤,把更适应的基于组遗传给下一代。详细介绍链接 DbScan 基于空间密度聚类算法。dbScan作为一种特殊聚类算法,弥补了其他算法的一些不足,基于空间密,实现聚类效果,可以发现任意形状的聚簇。详细介绍链接 GA_Maze 遗传算法在走迷宫游戏中的应用。将走迷宫中的搜索出口路径的问题转化为遗传算法中的问题通过构造针对此特定问题的适值函数,基因移动方向的定位,巧的进行问题的求解。详细介绍链接 CABDDCC 基于连通图的分裂聚类算法。也是属于层次聚类算法主要分为2个阶段,第一阶段构造连通图。第二个阶段是分裂连通图,最终形成聚类结果。详细介绍链接 Chameleon 两阶段聚类算法。与CABDDCC算法相反,最后是通过对小簇集合的合并,形成最终的结果,在第一阶段主要是通过K近邻的思想形成小规模的连通图,第二阶段通过RI(相对互连性)和RC(相对近似性)来选一个最佳的簇进行合并。详细介绍链接 RandomForest 随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接 KDTree K-Dimension Tree。多维空间划分树,数据在多维空间进行划分与查找。主要用于关键信息的搜索,类似于在空间中的二分搜索,大大提高了搜索效率,在寻找目标元素时,使用了DFS深度优先的方式和回溯进行最近点的寻找。详细介绍链接 MS-Apriori 基于多支持度的Apriori算法。是Apriori算法的升级算法,弥补了原先Apriori算法的不足,还增加了支持度差别限制以及支持度计数统计方面的优化,无须再次重新扫描整个数据集,产生关联规则的时候可以根据子集的关系避免一些置信度的计算。详细介绍链接 ACO 蚁群算法。蚁群算法又称为蚂蚁算法。同GA遗传算法类似,也是运用了大自然规律的算法,用于在图中寻找最优路径的概率型算法。灵感来源于蚂蚁在寻找食物时会散播信息素的发现路径行为。详细介绍链接 BayesNetwork 贝叶斯网络算法。弥补了朴素贝叶斯算法中必须要事件独立性的缺点,利用了贝叶斯网络的DAG有向无环图,允许各个事件保留一定的依赖关系,网络结构中的每个节点代表一种属性,边代表相应的条件概率值,通过计算从而能得到精准的分类效果。详细介绍链接 TAN 树型朴素贝叶斯算法。此算法又被称为加强版朴素贝叶斯算法。在满足原有朴素贝叶斯条件的基础上,他允许部条件属性直接的关联性。形成树型的结构。详细介绍链接 Viterbi 维特比算法。给定一个隐马尔科夫模型以及一个观察序列,求出潜在的状态序列信息,每个潜在状态信息又会受到前一个状态信息的影响。 算法使用方法 在每个算法中给出了3大类型,主算法程序,调用程序,输入数据,调用方法如下: 将需要数据的测试数据转化成与给定的输入格式相同 然后以Client类的测试程序调用方式进行使用。 也可以自行修改算法程序,来适用于自己的使用场景
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值