2020年12月_星点xingdian

原创 Spark DataSource API

什么是Spark Datasource APISpark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力，它可以方便地把不同的数据格式通过DataSource API注册成Spark的表，然后通过Spark SQL直接读取。它可以充分利用Spark分布式的优点进行并发读取，而且SparkSQL本身有一个很好的Catalyst优化引擎，能够极大的加快任务的执行。Spark Datasource API 同时提供了一套优化机制

2020-12-14 23:36:18 484

原创 TiDB适用场景和不适用场景

TiDB 的典型的应用场景是：(1) 原业务的 MySQL 的业务遇到单机容量或者性能瓶颈时，可以考虑使用 TiDB 无缝替换 MySQL。TiDB 可以提供如下特性：吞吐量、存储和计算能力的水平扩展水平伸缩时不停服务强一致性分布式 ACID 事务(2) 大数据量下，MySQL 复杂查询很慢。(3) 大数据量下，数据增长很快，接近单机处理的极限，不想分库分表或者使用数据库中间件等对业务侵入性较大、对业务有约束的 Sharding 方案。(4) 大数据量下，有高并发实时写入、实时查询、实时统

2020-12-13 17:37:20 1206

原创 HBase常见热点问题及几种解决方案

Hbase 热点问题？当我们没有提前创建分区的时候，只有一个region，默认rowkey是递增的往大的region写数据，无法发挥集群写的优点，那之前的region有的未达到饱和状态，就浪费了。数据分布不均。例如：Keys:[2-4]一直往rs1写数据，没有向其他的rs写，就会出现热点问题就出现了热点的问题什么是热点产生原因1、没有提前创建分区，Hbase 创建表默认只有一个分区2、Rowkey设计不合理只有一个regionserver，然后所有的rowkey都往该regi

2020-12-12 21:52:05 2505

原创费曼、SQ3R、西蒙、记忆、框架等学习法

1.快速学习法-费曼学习法学习金字塔一个叫Scott H. Young的人，在 12 个月内自学完成 4 年麻省理工学院计算机科学的 33 门课程。据称他采用了所谓超速学习理论和方法，即《费曼技巧》，也称之为《费曼学习法》。理查德·菲利普斯·费曼（RichardPhilips Feynman），美国犹太裔理论物理学家，量子电动力学创始人之一，纳米技术之父，1965年获得诺贝尔物理学奖。费曼同时也是加州理工学院最受欢迎的教师之一。《费曼物理学讲义》至今还在被大学生们使用。费曼非常热爱自己的教师角色，他

2020-12-12 19:58:20 1763

原创《如何高效学习》思维导图

《如何高效学习》一丶概述《如何高效学习》，微信读书综合评分8.6分二丶思维导图整理三丶微信读书热评书中的干货：(一)整体性学习的概念：整体性学习就是创建你心中的知识网络，描绘你心中的知识地图。这幅你知识网络图可以将知识与知识串联起来，加深你对知识点的理解，把单纯的记忆知识转化为理解知识驾驭知识。(二)整体性学习的三个要素：1.结构：有联系的知识点。2.模型：结构的核心，结构的种子。比如：书是结构，模型就是书的目录。创建模型是为了便于知识储存。3.高速公路：串联不同学科知识，加深对知识

2020-12-12 19:44:59 1748

原创关于学习观

为什么有人可以快速掌握一项知识，你却题海战术，为什么有人可以迅速找到解决方案，你却大脑空白bilibili.com/video/BV11t41127zA

2020-12-12 19:31:02 139

原创 flink源码阅读-Flink intervalJoin 应用和原理

1.Flink中基于DataStream的join，只能实现在同一个窗口的两个数据流进行join，但是在实际中常常会存在数据乱序或者延时的情况，导致两个流的数据进度不一致，就会出现数据跨窗口的情况，那么数据就无法在同一个窗口内join。Flink基于KeyedStream提供的interval join机制，intervaljoin 连接两个keyedStream, 按照相同的key在一个相对数据时间的时间段内进行连接。2.代码示例将订单流与订单品流通过订单id进行关联，获得订单流中的会员id。其中

2020-12-12 18:51:19 522 1

原创 Flink 1.12 Release 文档

本文的 Release 文档描述了在 Flink 1.11 和 Flink 1.12 之间更改的重要方面，例如配置，行为或依赖项。如果您打算将 Flink 版本升级到 1.12，请仔细阅读这些说明。API移除掉 ExecutionConfig 中过期的方法移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可以使用 ExecutionConfig#getLatencyTrackingInterval 方法代替.移除掉了 ExecutionConfig

2020-12-11 23:19:39 934

原创 Elastic Search不停机重建索引-修改映射类型

我们在使用ES的时候，尤其是初学者，通常都会遇到一个问题，那就是文档字段的映射类型创建错误问题，但是ES上却不能像mysql一样直接去修改字段类型，这时便出现了这个棘手的问题，今天让我们用一种索引重建的方式来修改字段映射类型，本文使用的ES是5.6.3版本。前提使用索引重建并且不停机，需要有个前提，那就是你在使用索引时，都是使用索引别名而不是使用真正的索引名，如果这点在你的程序上还没有做的话，那么请为其建立别名，好处很多，一旦当前索引出现了什么问题不能及时恢复，你可以紧急切换到备用索引上而无需再重启

2020-12-10 21:12:30 439

原创 GitHub下载速度慢？这个方法可以解决

提高Github下载速度方法的目录一、通过码云转接提高仓库下载速度1.1 操作前的准备1.2 导入远程仓库1.2.1 导入方法一1.2.2 导入方法二二、提高子模块的下载速度2.1 操作思路2.1.1 问题描述2.1.2 解决方法三、重新关联GitHub远程仓库一、通过码云转接提高仓库下载速度简介：利用Gitee（码云）这个开源中国提供的代码仓库来转接，以此提高Github上项目的下载速度。1.1 操作前的准备操作前需要准备好 Gitee 和 Github 的账号，这两者

2020-12-09 00:14:33 539

原创 Flink+TensorFlow打造实时智能异常检测平台

Flink大数据流式计算1．前言随着互联网的迅速发展，各个公司都建立了自己的监控体系，用于提前发现问题降低损失，携程亦是如此。然而携程的监控体系存在以下三个问题：Flink 已经渐渐成为实时计算引擎的首选之一，从简单的实时 ETL 到复杂的 CEP 场景，Flink 都能够很好地驾驭。本文整理自携程实时计算负责人潘国庆在 QCon 全球软件开发大会（北京站）2019 的演讲，他介绍了携程如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台，以解决规则告警系统准确率低、时效性低、规则

2020-12-08 23:53:10 1051

原创 Flink 如何选择状态后端

本文我们将深入探讨有状态的流处理，更确切地说是 Apache Flink 中不同的状态后端（state backend）。在以下部分，我们将介绍 Apache Flink 的 3 种状态后端，它们的局限性以及根据具体案例需求选择最合适的状态后端。在有状态的流处理中，当开发人员启用了 Flink 中的 checkpoint 机制，那么状态将会持久化以防止数据的丢失并确保发生故障时能够完全恢复。选择何种状态后端，将决定状态持久化的方式和位置。Flink 提供了三种可用的状态后端：MemoryStateBac

2020-12-07 23:13:31 571

原创 Flink维度关联的思路分析

在实际生产中，我们经常会有这样的需求，需要以原始数据流作为基础，然后关联大量的外部表来补充一些属性。例如，我们在订单数据中，希望能得到订单收货人所在省的名称，一般来说订单中会记录一个省的 ID，那么需要根据 ID 去查询外部的维度表补充省名称属性。在 Flink 流式计算中，我们的一些维度属性一般存储在 MySQL/HBase/Redis 中，这些维表数据存在定时更新，需要我们根据业务进行关联。根据我们业务对维表数据关联的时效性要求，有以下几种解决方案：实时查询维表关联预加载维表关联热存储关联其他

2020-12-06 12:18:26 909

原创机器学习的知识点

一、常用语言R语言（S语言源于统计，数据探索、统计分析、作图的解释型语言。）www.r-project.orgPython (瑞士军刀、通用语言、爬虫、网站、 shell)NumPy SciPy MatplotlibMatlab 矩阵实验室WEKA 机器学习与数据挖掘 JAVA环境图形界面（hadroop大数据迁移）二、主要方法回归预测以及相应的降维技术：线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO分类器：决策树、朴素贝叶斯、贝叶斯信念网络、

2020-12-02 22:58:18 137

转载张钹：人工智能技术已进入第三代

原文编注：近日，中科院院士、清华大学人工智能研究院院长张钹教授接受记者采访时认为，目前基于深度学习的人工智能在技术上已经触及天花板。从长远来看，必须得走人类智能这条路，最终要发展人机协同，人类和机器和谐共处的世界。未来需要建立可解释、鲁棒性的人工智能理论和方法，发展安全、可靠和可信的人工智能技术。张钹院士：AI奇迹短期难再现深度学习技术潜力已近天花板在Alphago与韩国围棋选手李世石对战获胜三年过后，一些迹象逐渐显现，张钹院士认为到了一个合适的时点，并接受了此次的专访。深度学习目前人工智能最受关

2020-12-02 22:45:19 273

原创 Flink 源码解析（十一）Credit以及背压问题

Credit漫谈在看上一部分的代码时，有一个小细节不知道读者有没有注意到，我们的数据发送端的代码叫做PartittionRequesetQueue.java，而我们的接收端却起了一个完全不相干的名字：CreditBasedPartitionRequestClientHandler.java。为什么前面加了CreditBased的前缀呢？1 背压问题在流模型中，我们期待数据是像水流一样平滑的流过我们的引擎，但现实生活不会这么美好。数据的上游可能因为各种原因数据量暴增，远远超出了下游的瞬时处理能力（回忆一

2020-12-02 22:24:25 827

原创 Kafka与RocketMQ性能对比

Kafka 搭建的日志集群单个Topic可以达到几百万的TPS，而使用RocketMQ组件的核心业务集群，集群TPS只能达到几十万TPS。温馨提示：TPS只是众多性能指标中的一个，我们在做技术选型方面要从多方面考虑，本文并不打算就消息中间件选型方面投入太多笔墨，重点想尝试剖析两者在性能方面的设计思想。1、文件布局1.1 Kafka 文件布局Kafka 文件在宏观上的布局如下图所示：正如上图所示，Kafka 文件布局的主要特征如下：文件的组织以 topic + 分区进行组织，每一个 topic

2020-12-02 00:06:50 437

原创 Flink 源码解析（十）数据在各个task之间exchange的过程

数据流转过程上一节讲了各层数据的抽象，这一节讲讲数据在各个task之间exchange的过程。1 整体过程看这张图：第一步必然是准备一个ResultPartition；通知JobMaster；JobMaster通知下游节点；如果下游节点尚未部署，则部署之；下游节点向上游请求数据开始传输数据.2 数据跨task传递本节讲一下算子之间具体的数据传输过程。也先上一张图：image_1cfmpba9v15anggtvsba2o1277m.png-357.5kB数据在task之间传递有如下几

2020-12-01 23:32:36 413

xingdianp的博客