~狼

java、hadoop/spark、机器学习

实战案例hive-on-spark:医疗大数据-数据仓库ETL

2.6.1 方案的选择 总结: 1)Spark定位于内存计算框架:分布式计算RDD、实时计算spark stream、结构化查询saprkSQL、数据挖掘spark.ML 2)类比hadoop生态:分布式存储hdfs、数据仓库hive(meta、数据存储基于hdfs)、yarn分布式资源调度、n...

2019-03-07 13:33:20

阅读数 283

评论数 0

实战案例:医疗临床大数据实时流日志分析

2.6 spark实战案例:实时日志分析 2.6.1 交互流程图 2.6.2 客户端监听器(java) @SuppressWarnings("static-access&a...

2019-02-13 14:13:24

阅读数 297

评论数 0

大数据实战手册-开发篇之IO

2.4 sparkContext IO:读 2.4.1 textFile # Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resource...

2019-02-13 13:59:16

阅读数 39

评论数 0

大数据实战手册-开发篇之RDD : 超详细RDD函数API

2.2 RDD:计算 transform->action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2] neutral_zero_value = (0,1) #...

2019-02-13 13:52:57

阅读数 57

评论数 0

大数据实战手册-开发篇之 集成远程开发调试环境

2.1 pycharm远程开发调试 2.1.1 python版本一致 #版本都保持3.6.6 #root cd /usr/local/python3/bin/pip3 list 备注:[python模块导入顺序是从sys.path中取,可以代码加入到sys.path。 当前目录-&a...

2019-02-13 13:30:07

阅读数 67

评论数 0

大数据实战手册-安装篇之安装配置

1.2 安装配置 1.2.1 安装jdk1.8 #root vim /etc/profile export JAVA_HOME=/data/software/jdk1.8.0_191 export JRE_HOME=JAVAHOME/jreexportCLASSPATH=.:{JAVA_HO...

2019-02-13 13:22:13

阅读数 61

评论数 0

大数据实战手册-安装篇之基础环境

1 基础环境 1.1.1 关闭selinux #查看状态:/usr/sbin/sestatus #disabled vim /etc/selinux/config #重启 reboot 1.1.2 关闭防火墙 #查看防火墙规则 firewall-cmd --list-all #查询...

2019-02-13 12:53:58

阅读数 61

评论数 0

逻辑回归算法 - 乳腺癌预测

1 目标 根据历史女性乳腺癌患者数据集(医学指标)构建逻辑回归分类模型进行良/恶性乳腺癌肿瘤预测 2 数据集 2.1 数据集来源 数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。这些是DR Wolberg自1984~1995随访搜集连续乳腺癌患者数据,数据仅...

2018-10-08 15:32:16

阅读数 798

评论数 0

机器学习系列之特征工程

''' @description 特征工程 - Preprocess 1 框架:scikit-learn,依赖模块:scipy、pandas、numpy 2 pip3 install scikit-learn -i http://pypi.douban.com/simple --t...

2018-08-03 18:11:00

阅读数 105

评论数 0

机器学习系列之朴素贝叶斯算法(监督学习-分类问题)

''' @description :一级分类:监督学习,二级分类:分类(离散问题),三级分类:贝叶斯算法 算法优点: a 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率 b 对缺失的数据不太敏感,算法也比较简 c 分类问题准确度高、速度快...

2018-08-03 17:11:14

阅读数 342

评论数 0

机器学习系列之K-近邻算法(监督学习-分类问题)

一级分类:监督学习,二级分类:分类(离散问题),三级分类:k-近邻算法 ''' @description : 算法优点: a简单、易于理解、易于实现、无需估计参数、无需训练 算法缺点: a懒惰算法,对测试样本分类时计算量大,内存开销大 ...

2018-08-03 17:06:43

阅读数 495

评论数 0

5 微服务实战系列 - SpringBoot redis cluster实战

redis3.2+升级cluster功能: 1主从模式:主从分片,为每一个master节点创建replica,主节点宕机,从节点升级为主节点,保证服务延续性 2负载均衡:集群根据流量redict to node 3读写分离:主节点写操作,从节点备份读操作 4ruby脚本简单创建集群部署

2017-11-29 17:54:39

阅读数 3468

评论数 2

3 微服务实战系列 - SpringBoot项目实战

springBoot项目实践,本项目涉及常用场景关键技术点。 请求与响应加密传输、Response加密(AES)全局响应、 访问权限控制、 高并发(唯一终端+一次完整请求生成)

2017-11-10 17:50:22

阅读数 1872

评论数 0

4 微服务实战系列 - SpringBoot RabbitMQ 实战解决项目中实践

springBoot出现是soa开发模式的一次革命,把javaer从xml配置中解放出来,这也是微服务流行起来的重要原因,使分布式成为主流。同时无缝连接springcloud提供服务治理、服务网关、配置热启动刷新、断路由、服务监听等,接下来记录曾经的点点滴滴!

2017-10-19 14:09:49

阅读数 1522

评论数 0

多个视频文件合成画中画效果(Python版)

远程录制两段视频,通过ffmpeg合成画中画效果(类似微信)。

2017-08-01 10:45:00

阅读数 2668

评论数 0

IT 职场英语技能(西式招聘JD)

C/C++ developement engineer Responsibility: * Your job area will be from high throughput low latency exchange gateway to market making tradin...

2018-05-30 13:21:26

阅读数 487

评论数 1

区块链实战系列:众筹空间(NodeJs版本)

1 基础环境准备 1.1环境预览 1.2基础工程 Npm install -g truffle Npm install -g EthereumJS TestRPC Npm install -g supervisor Truffle init Npm init 1.3疑难...

2018-05-29 12:30:06

阅读数 599

评论数 3

区块链(ethereum)实战手册 - 持续更新中

1区块链解决什么问题? 1.1 解决中心化的潜在风险 - 分布式去中心化存储 1.2 降低信任成本 - 链式的数据结构 2区块链关键技术 2.1 链式的数据结构 2.2 P2P去中心化网络技术 2.3 加密算法 2.4 共识算法 3区块链实战 3.1 s...

2018-04-28 13:59:14

阅读数 312

评论数 0

服务架构一分钟系列:Nginx+Keepalived部署

1基础环境 测试机器1 192.168.0.251 MASTER Keepalived+nginx 测试机器2 192.168.0.252 BACKUP Keepalived+nginx 虚拟vip 192.168.0.100 Vip 2 nginx配置 2...

2018-01-05 21:44:13

阅读数 215

评论数 0

服务架构一分钟系列:微服务分布式服务架构演进

优点: 1)内网与外网分离 2)暴露外网ip之有网关,网关统一路由做全局权限、公共访问拦截处理 3)内部服务多节点部署,增加服务延续性,可水平扩展 缺点: 1)网关单节点,或者nginx代理多节点,nginx宕掉怎么办? 2)Nginx宕掉,正在访问处理怎么办? 解决方案: 方案一...

2018-01-05 21:40:14

阅读数 434

评论数 0

提示
确定要删除当前文章?
取消 删除