只会AI搜索得coder-CSDN博客

原创 STORM入门之（Trident集成Hbase）

Trident方式集成Hbase(1)测试时需要配置hbase正确的hostwin：C:\Windows\System32\drivers\etc\hostsliunx：/etc/hosts(2)Trident实现import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Con...

2018-11-19 14:11:01 452

原创 STORM入门之（Trident杂记）

Trident杂记练习Demo练习：newStream创建新流体，each集成函数，过滤器，分发操作（shuffer等），patition分区聚合package com.neusoft.soc.topology;import java.util.HashMap;import java.util.Map;import org.apache.storm.Config;impor...

2018-11-06 16:21:49 235

原创朴树贝叶斯 sklean 文本分类实现

读取本地文件进行分析，分词中英文都支持，可以换结巴分词。训练样本可以自己定义，目录结构就是当前项目的 data_log文件夹，一级目录是类别，二级目录是文件即可。博主训练集合仅供参考：http://download.csdn.net/download/yl3395017/10236998from sklearn.datasets import load_files# 加载数

2018-02-02 14:23:55 587

原创 STORM入门之（集成HDFS）

总体Storm集成hdfs需要做前期工作1.hadoop单机版安装2.自己写hdfs demo 查看是否写入成功首先让我们来安装hadoop 版本：hadoop-native-64-2.6.0.tarjdk：1.7Hadoop部分（1）hadoop配置文件修改core-site.xml hadoop.tmp.di

2017-11-14 13:58:37 941

原创 STORM入门之（TridentTopology集成Kafka）

基本前几篇文章是StormTopology集成Kafka 是Storm基本入门知识传送门：http://blog.csdn.net/yl3395017/article/details/77477716这篇介绍TridentTopology集成Kafka 话不多说上代码Topology构建package com.storm.topology;import com.storm.

2017-09-04 09:28:19 816

原创 STORM入门之（TridentAPI,Aggregation）

基本介绍Aggregation是Trident的基本基本api 主要作用是聚合，如下聚合方法作用是记录单词出现的次数package com.storm.trident;import org.apache.storm.shade.org.apache.commons.exec.util.MapUtils;import org.apache.storm.trident.operation.

2017-09-01 12:44:25 938

原创 STORM入门之（TridentAPI,Each）

1.基础基础Topology与TritentTopology是不同的，就相当于JDBC VS Hibernate ，Hibernate是基于JDBC实现的ORM架构，二者本质是相同的，但是用法截然不同，Trident会抽象一些，不过底层也是基于Topology的Spout，Bolt等基础来构建，并且最终提交任务时，TritentTopology是会转换成Topology。Each相当于把Sp

2017-08-31 16:39:14 788

原创 STORM入门之（Flume Kafka集成架构）

FlumeFlume作用：收集日志组件下载地址：http://archive.apache.org/dist/flume/1.6.0/ 版本：1.6.0以上集成KafkaFlume配置a1.sources = r1a1.sinks = k1a1.channels = c1 a1.sources.r1.type = syslogudpa1.sources.r1.po

2017-08-25 17:01:42 629

原创 java，上传文件，下载文件

【代码】java，上传文件，下载文件。

2023-07-20 08:51:44 121

定义车道与下游路段车道的连接关系。包括下游路段出口节点ID、连接的下游路段车道基本信息以及对应的信号灯相位号。在车道连接中定义的相位号，是对Movement定义的转向的相位号的一个补充。上游节点id和下游节点id定义的路段与下游路段的连接关系，既当前link行驶下一个link的下游nodeID值。，车道信息，规定从上游节点向下游节点的方向，从左到右依次为1/2/3。车道中心线点序列集合，将车道均等分N个point，取其经纬度坐标。指该路段能够进行的行为，指该路段能够左转和直行，

2023-01-06 13:59:07 1559

原创 Linux创建sftp帐号

（1）创建sftp帐号groupadd sftpUsersuseradd -d /home/lnboss -s /sbin/nologin -g sftpUsers lnbosspasswd lnboss********cd /etc/sshcp -p sshd_config sshd_configbakvim sshd_config#注释掉#Subsystem ...

2020-03-31 09:52:58 406

原创 Centos firewall-cmd 基本操作合集

安装Firewall命令：yum install firewalld firewalld-configFirewall开启常见端口命令：firewall-cmd --zone=public --add-port=80/tcp --permanentfirewall-cmd --zone=public --add-port=443/tcp --permanentfirewall-cmd...

2020-03-31 09:28:24 1547

原创 Spark SQL 基本操作

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...

2020-03-05 17:00:24 310

原创 Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】20200302

Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId...

2020-03-02 16:12:53 446

原创 sftp建立用户，目录鉴权

需求：提供sftp服务端sftp -oPort=10022 sftpUser@47.92.134.88---------------------------------------sftp用户创建-----------------------------------------groupadd sftpUseruseradd -d /home/sftpUser -s /sbin/n...

2019-09-03 15:23:43 368

原创 linux系统下vsftpd用户创建，指定文件夹

工作记录20190415需求：由于内网传输非敏感信息提供ftp传输，就不采用sftp了安全措施：目录加权，账号密码#linux创建ftp用户#root用户下执行：useradd -d /home/test -m testusermod -s /sbin/nologin test 　　（限定用户test不能telnet，只能ftp）#usermod -s /sbin/bash...

2019-04-15 15:47:37 1808

转载 JPA-api

转载：https://my.oschina.net/u/3080373/blog/1828589

2019-04-01 11:09:03 161

原创 ElasticSearch SearchApi总结

参考：https://blog.csdn.net/majun_guang/article/details/81103623整理：Clientpackage com.mobile.es;import java.net.InetAddress;import org.elasticsearch.client.transport.TransportClient;import org.e...

2019-03-22 10:47:38 245

原创 ElasticSearch Chrome Head插件

Chrome输入chrome://extensions/下载chromeFOR.COM_elasticsearch-head_v0.1.3.crx 安装包安装即可地址：http://hk.chromefor.com/down.php?key=6FXBo8dEBC4a8PssqefF

2019-03-21 08:37:20 6285

原创基于sftp的shell编程

基于sftp的shell编程两个组件（1）expect首先安装expect 需要两个tar.gz 如下所示 tar zxvf tcl8.4.19-src.tar.gz cd tcl8.4.19/unix && ./configure make make installtar zxvf expect5.45.tar.gzcd expect5.45....

2019-03-12 13:56:13 1432

原创 STORM入门之（TridentState以及聚合函数细节描述）

（一）Aggregator函数是batch聚合，最好与groupBy分组联合使用，意思为根据具体的fields进行聚合，如果是分词那么就是根据具体的单词进行聚合，相同的单词聚合到一起，聚合并发单词的数量使用parallelismHint才可生效，否则永远都进行全聚合生效方式.partitionBy(new Fields("word")) //分区.each(new Fields("wo...

2018-12-10 17:16:56 601

原创 Trident Mark

import java.util.HashMap;import java.util.Map;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.generated.StormTopology;import org.apache.storm.trident...

2018-11-14 14:41:59 249

原创 Kafka异常

单机版kafka测试producer发送消息异常如下：（1）ERROR fetching topic metadata for topicskafka.common.KafkaException: Fetching topic metadata with correlation id 0 for topics [Set(test)] （2）ERROR Failed to ...

2018-11-07 14:54:31 1555

原创 hbase本机测试卡死

无异常只有log4jSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/E:/jar/hbasejars/log4j-slf4j-impl-2.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found bin...

2018-08-27 10:18:21 338

原创 Flume监听oracle表增量

需求：获取oracle表增量信息，发送至udp514端口，支持ip配置步骤：（1）需要的jar oracle的 odbc5.jar（oracle安装目录 /jdbc/lib下查找）（2）flume的开源包flume-ng-sql-source-1.4.3.jar 最新的好像是1.5的小版本记不住了这个下载地址直接csdn上就有这两个jar 都拷贝到flume的lib下...

2018-07-17 10:52:01 3715 4

原创 STORM入门之（HIVE集成架构）

集成方式 hivebolt注意事项版本误差会导致乱七八糟各种找不到，未定义异常找起来很头疼 hive版本2.1.1 storm版本1.0.5 hadoop版本2.6.5在windows跑local模式连接linux hive会出现unix验证类找不到，这个是rt.jar中的class，只有liunx版本才会有，所以windows跑程序的时候，要安装本地的hive，这块需要注意一下import ...

2018-05-24 08:28:44 1353

转载 Es集群踏坑之路

转载：https://www.cnblogs.com/zlslch/p/6619108.html1：es集群脑裂问题(不要用外网ip，节点角色不要混用)　　原因1：阿里云服务器，外网有时候不稳定。　　　　解决方案：单独采购服务器，内网安装　　原因2：master和node节点没有分开　　解决方案：　　　　分角色：master节点(三台)，data节点(随着数据增加而增加)，client(随着查询压...

2018-03-12 10:04:21 987

原创 Redis基本存储类型

存储的基本类型1.Stringredis 127.0.0.1:6379> SET name "runoob"OKredis 127.0.0.1:6379> GET name "runoob"2.Hashredis> HMSET myhash field1 "Hello" field2 "World""OK"redis> HGET myhash f

2018-03-07 09:07:09 616

原创朴树贝叶斯文本分类

朴树贝叶斯文本分类前两个加载文件为特征分类文件，可以自己定义，例如：第一个文件是体育，第二个文件是新闻第三个文件是测试文件自己定义目前这个demo是二分类python3from numpy import *def textParse(bigString): # input is big string, # output is word list # 分词 i

2018-01-29 14:16:08 434

转载转载收藏学习（spark）

SPARK的核心就是RDD，对SPARK的使用入门也就是对RDD的使用，对于JAVA的开发者，Spark的RDD对JAVA的API我表示很不能上手，单单看文档根本是没有办法理解每个API的作用的，所以每个SPARK的新手，最好按部就班直接学习scale,那才是一个高手的必经之路，但是由于项目急需使用，没有闲工夫去学习一门语言，只能从JAVA入门的同学，福利来了：涵盖大部分RDD的常用AP

2018-01-02 15:56:58 225

原创 KNN近邻算法总结

K-近邻算法1.什么是K近邻算法K近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 2.分类结果的决定因素（1）K为近邻的对象个数，结果影响取决于K的值。（2）测试样本的准确

2017-11-29 09:16:08 735

原创 ES随机生成学生数据工具

version 2.4.1import java.io.IOException;import java.io.UnsupportedEncodingException;import java.net.InetAddress;import java.net.UnknownHostException;import java.util.ArrayList;import java.util.

2017-11-24 16:09:27 1409

原创 SVM算法

SVM是通过超平面将样本分为两类。在超平面确定的情况下，可以相对地表示点距离超平面的远近。对于两类分类问题，如果0">，则的类别被判定为1；否则判定为-1。所以如果0">，则认为的分类结果是正确的，否则是错误的。且的值越大，分类结果的确信度越大。反之亦然。所以样本点与超平面之间的函数间隔定义为但是该定义存在问题：即和同时缩小或放大M倍后，超平面并没有变化，但是函数间隔却变化了。

2017-11-23 10:05:49 314

原创线性回归

线性回归（监督）（二维）基本公式y=ax+b计算步骤1）首先读入学习的x与 y2）通过python数学模型得到斜率，与截距；3）然后通过测试数据计算yDemo version python2import pandas as pdfrom io import StringIOfrom sklearn import linear_model

2017-11-23 09:27:36 277

原创 K近邻算法

K-近邻算法（监督）K为邻近的对象个数，结果影响取决于K的值。运用算法为距离算法，计算测试点到K个对象（每个对象的距离）计算步骤1）计算测试数据与各个训练数据之间的距离；2）按照距离的递增关系进行排序；3）选取距离最小的K个点；4）确定前K个点所在类别的出现频率；5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。Demo version pyt

2017-11-22 13:41:37 230

原创 Spark杂记

Spark Java Api查询地址：http://spark.apache.org/docs/latest/api/java/index.html

2017-11-10 10:48:11 167

原创 CentOS免密登录设置

需求：学习hadoop 单机免密登录shellssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa会在/hadoop/home下生成id_dsa id_dsa.pub 这连个文件然后进行[hadoop@SOC-15 ~]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys[hadoop@SOC-15

2017-11-10 10:22:40 1081

原创 Flume自定义SyslogSink

需求：收集客户端app应用日志，发送到其他代理agent上514syslog端口进行日志收集采样。技术组件：flume-ng版本：flume1.7其他：由于flume本身默认没有syslog的sink，只有syslog的source，所以我们可以自己定义syslog sink测试syslog的javaDemo，功能实现ip校验，发送多条syslog日志，直接java -jar运

2017-11-09 14:13:27 1847

原创 Flume整体汇总

Flume SourceSource类型说明Avro Source支持Avro协议（实际上是Avro RPC），内置支持Thrift Source支持Thrift协议，内置支持Exec Source基于Unix的command在标准输出上生产数据JMS Source从JMS系

2017-11-09 10:36:09 367

原创 Flume启动命令

启动报错log4j:WARN No appenders could be found for logger (org.apache.flume.lifecycle.LifecycleSupervisor).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging.apache.o

2017-11-09 09:07:28 1189