2021年03月_000X000

12月 11月 08月 07月 06月 05月 04月 03月 02月

原创数据仓库的架构组件工具选型

企业数据仓库架构关于数据仓库，有一种简单粗暴的说法，就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集，提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力，我们讲集中讨论最本质的问题，在不考虑过多技术细节的情况下，整个层次架构可以被划分为4层：原始数据层（数据源）数据仓库架构形态数据的采集、收集、清洗和转换应用分析层单层架构（直连）大多数情况下，数据仓库是一

2021-03-31 11:46:00 470

原创数据仓库建设

1.中间数据流失，计算结果没有共享。比如在很多数据报告中都会对同一个功能进行数据提取、分析，但是都是各自处理一遍，没有对结果进行共享。2.数据分散在多个数据源，如MySQL、MongoDB、Elasticsearch，很难对多个源的数据进行联合使用、有效组织。3.每个人都需要非常清楚产品业务逻辑才能正确地提取、处理数据，导致大家都将大量时间耗费在基础数据处理中。于是，我们考虑建设一个适于分析的数据存储系统，该系统的工作应该包含两部分：第一，根据需求抽象出数据模型；第二，按照数据模型的定义，从各个

2021-03-31 11:43:25 196

原创大数据数据仓库建设

问题导读：1、一文读懂数据仓库、数据集市、数据库的区别与关联2、漫谈数据仓库之维度建模3、数据仓库的ETL、OLAP和BI应用先从大数据数据仓库建设的整体架构说起。下图是数据仓库的逻辑分层架构：想看懂数据仓库的逻辑分层架构，必须先弄懂以下4大概念。数据源：数据来源，互联网公司的数据来源随着公司的规模扩张而呈递增趋势，同时自不同的业务源，比如埋点采集，客户上报，API等。ODS层：数据仓库源头系统的数据表通常会原封不动地存储一份，这称为ODS层, ODS层也经常会被称为准备

2021-03-31 11:35:11 474

原创数据仓库的治理方法

数仓治理数仓治理的老大难，通常是跟着业务需求快跑，要不是数据零散在各个团队，或者是大家的研发规范有不同，作为一项通过维度模型来约束规范的工种来讲，“模型”的治理难度，大于“架构”。目前整个行业通常的模型治理方法，是规定一种建模规范，大家在编码的过程中各自遵守。当业务开始变得模糊不清的时候，再专门抽调时间，来做人工治理。就像黄河一样，流沙清理了一次又一次，但上游还是会冲下新的流沙。数仓的假设既然都是采用的维度建模，那么其设计思想必然是自下而上的进行建设，与架构进行类比，也就是先做好子模块，最后

2021-03-31 11:32:52 648

原创 Python之Pandas文本处理

一、str对象1.str对象的设计意图str对象是定义在Index或Series上的属性，专门用于处理每个元素的文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其str对象。在Python标准库中也有str模块，为了使用上的便利，有许多函数的用法pandas照搬了它的设计，例如字母转为大写的操作。import numpy as npimport pandas as pdvar = 'abcd'str.upper(var) # Python内置str模块# re

2021-03-24 15:55:38 975

原创 Python之Pandas连接详解

一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作，例如学生期末考试各个科目的成绩表按照姓名和班级连接成总的成绩表，又例如对企业员工的各类信息表按照员工ID号进行连接汇总。由此可以看出，在关系型连接中，键是十分重要的，往往用on参数表示。另一个重要的要素是连接的形式。在pandas中的关系型连接函数merge和join中提供了how参数来代表连接形式，分为左连接left、右连接right、内连接inner、外连接outer，它们的区别可以用如下示意图表示。

2021-03-24 15:50:48 5798

原创二叉树及其性质详解

问题导读1.什么是二叉树？2.二叉树性质是什么？3.什么是完全二叉树？本节将给大家介绍一类具体的树结构——二叉树。简单地理解，满足以下两个条件的树就是二叉树：本身是有序树；树中包含的各个节点的度不能超过 2，即只能是 0、1 或者 2；例如，图 1a) 就是一棵二叉树，而图 1b) 则不是。二叉树的性质经过前人的总结，二叉树具有以下几个性质：二叉树中，第 i 层最多有 2i-1 个结点。如果二叉树的深度为 K，那么此二叉树最多有 2K-1 个结点。二叉树中，终端结点数（叶子结点数）为 n0，度为

2021-03-23 09:47:34 374

原创 Flink SQL中时态表

前言Flink 1.12正式发布后，带来了很多新的特性，本文重点学习和总结一下Flink 1.11和 Flink1.12中时态表的使用和自己的一个小总结，文章如有问题，请大家留言交流讨论，我会及时改正。本文主要将在Flink1.12中新的时态表的一些新的概念和注意事项，如何在Join中使用会在之后另一个篇文章中具体讨论。Flink中的时态表的设计初衷首先，大家需要明确一个概念，就是传统SQL中表一般表示的都是有界的数据，而直接套用于流计算这样源源不断的数据上是存在问题的，所以在Flink S

2021-03-23 09:45:58 1822 1

原创技术架构总结

整体架构APP、PC以及第三方等调用方通过传统的域名解析服务LocalDNS获取负载均衡器的IP，APP可以通过HttpDNS的方式来实现更实时和灵活精准的域名解析服务。通过负载均衡器到达统一接入层，统一接入层维护长连接。API网关作为微服务的入口，负责协议转换、请求路由、认证鉴权、流量控制、数据缓存等。业务Server通过PUSH推送系统来实现对端的实时推送，如IM、通知等功能。业务Server之间通过专有的RPC协议实现相互调用，并通过NAT网关调用外部第三方服务。域名解析

2021-03-17 11:51:28 163

原创面试总结（七）：大数据与高并发-2

问题导读：1、什么是分布式事务？2、什么是令牌桶算法？3、域名解析负载均衡算法是怎样的？七、阿里巴巴中文站商品信息如何存放看看阿里巴巴中文网站首页以女装/女包包为例商品基本信息名称、价格，出厂日期，生产厂商等关系型数据库：mysql/oracle目前淘宝在去O化(也即拿掉Oracle)，注意，淘宝内部用的Mysql是里面的大牛自己改造过的为什么去IOEIBM小型机廉价的PC机oracle数据库 myqlEMC存储集中式------>分布式2008年，王坚加盟阿里巴巴成为集团首席架构师，即.

2021-03-17 09:38:08 289 1

原创面试总结（七）：大数据与高并发-1

问题导读：1、秒杀系统的架构设计是怎样的？2、为什么要使用NOSQL NOT ONLY SQL?3、传统RDBMS和NOSQL的区别是什么？大数据与高并发一、秒杀架构设计业务介绍什么是秒杀？通俗一点讲就是网络商家为促销等目的组织的网上限时抢购活动比如说京东秒杀，就是一种定时定量秒杀，在规定的时间内，无论商品是否秒杀完毕，该场次的秒杀活动都会结束。这种秒杀，对时间不是特别严格，只要下手快点，秒中的概率还是比较大的。淘宝以前就做过一元抢购，一般都是限量 1 件商品，同时价格低到「令人发齿」，这种秒杀一般

2021-03-17 09:35:54 269

原创面试总结（六）：搜索索引

问题导读：1、如何理解用户输入查询语句？2、如何根据得到的文档和查询语句的相关性，对结果进行排序？3、如何计算权重(Term weight)过程？4、如何判断Term之间的关系从而得到文档相关性？搜索索引到这里似乎我们可以宣布“我们找到想要的文档了”。然而事情并没有结束，找到了仅仅是全文检索的一个方面。不是吗？如果仅仅只有一个或十个文档包含我们查询的字符串，我们的确找到了。然而如果结果有一千个，甚至成千上万个呢？那个又是您最想要的文件呢？打开Google吧，比如说您想在微软找份工作，于是您输.

2021-03-17 09:34:26 374

原创面试总结（五）：搜索引擎

问题导读：1、搜索引擎有哪些特点（优势）？2、搜索引擎使用到哪些场景中？3、如何将原文档传给分次组件？4、如何将得到的词(Term)传给索引组件(Indexer)？搜索引擎概述全文搜索就是对文本数据的一种搜索方式，文本数据的都多，可以分为顺序搜索法和索引搜索法，，全文检索使用的是索引搜索法特点（优势）：做了相关度排序对文本中的关键字做了高亮显示摘要截取只关注文本，不考虑语义搜索效果更加精确——基于单词搜索，比如搜索Java的时候找不到JavaScript，因为它们是不同.

2021-03-17 09:33:21 236

原创面试总结（四）：消息队列

问题导读：1、什么是异步处理？2、P2P的特点是什么？3、如何防止消息丢失？二、消息队列消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题实现高性能，高可用，可伸缩和最终一致性架构使用较多的消息队列有ActiveMQ，RabbitMQ，ZeroMQ，Kafka，MetaMQ，RocketMQ消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理，应用解耦，流量削锋和消息通讯四个场景异步处理场景说明：用户注册后，需要发注册邮件和注册短信。传统的做法有两.

2021-03-17 09:31:00 261

原创面试总结（三）：CAP三进二和Base定理与中间件

问题导读：1、关系型数据库遵循的ACID规则是什么？2、什么是BASE定理？3、为什么要使用缓存？六、CAP三进二和Base定理关系型数据库遵循ACID规则事务在英文中是transaction，和现实世界中的交易很类似，它有如下四个特性：1、A (Atomicity) 原子性原子性很容易理解，也就是说事务里的所有操作要么全部做完，要么都不做，事务成功的条件是事务里的所有操作都成功，只要有一个操作失败，整个事务就失败，需要回滚。比如银行转账，从A账户转100元至B账户，分为两个步骤：1）从A账.

2021-03-17 09:28:59 529

原创 Linux无法联网 python 处理docx文档时错误处理：ImportError: cannot import name etree

Linux无法联网 python 处理docx文档时错误处理：ImportError: cannot import name etree1、环境说明： python 处理WORD文档时即docx文档：在windows环境使用pip 自动安装python-docx,处理文档没有任何报错问题。当把windows安装的doc包，lxml包导入Linux...

2021-03-05 11:05:12 1204 3

原创深入理解python中的None对象

1. NoneNone是python中的一个特殊的常量，表示一个空的对象，空值是python中的一个特殊值。数据为空并不代表是空对象，例如[],''等都不是None。None和任何对象比较返回值都是False，除了自己。>>> L=[]>>> L is NoneFalse>>> L=''>>> L is NoneFalseNone有自己的数据类型NontType，你可以将None赋值给任意对象，但是..

2021-03-02 14:54:51 3531 2

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

Flume二次开发，支持抽取MYSQL Oracle数据库数据以JSON格式推送至Kafka。 demo： sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择.直接下载，然后放入Linux-python文件夹即可。

2021-03-11

flume-ng-elasticsearch-sink-1.8.0.jar

在Flume中的ElasticSearchSink支持Flume与Elasticsearch整合，可以将Flume采集的数据传输到Elasticsearch中，Flume版本：1.8.0，ElasticSearchSink版本：6.2.4

2020-09-18

kettle资源库表详细说明文档.xls

资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。

2020-04-30

kettle资源库数据字典.xls

Kettle资源库数据字典明细：R_DATABASE：数据库连接信息 R_DIRECTORY：kettle程序目录 R_JOB：作业 R_JOB_ATTRIBUTE：作业属性 R_JOB_HOP：作业跳 R_JOB_NOTE：作业注解 R_JOBENTRY：作业项 R_JOBENTRY_ATTRIBUTE：作业项属性 R_JOBENTRY_COPY：拷贝的作业项

2020-04-30

2020年中国行政区划四级街道镇标准GB-T2260（EXCEL版本）.xlsx

《中国行政区划代码》国家标准(GB/T2260)是行政区划代码，也称行政代码。行政区划代码是国家行政机关的识别符号，由9位阿拉伯数字组成，相当于机关单位的身份号码。按照国务院《行政区划管理条例》规定，行政区划代码由民政部门确定、发布。2020年最新发布行政区划四级街道/镇/乡。

2020-04-23

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定，现在的PDI Spoon的配置位置在../data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 下，注意这个地方要配置好对应数据源的shims

2020-03-20

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

2020-03-20

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

2020-03-19

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

2020-03-19

Araxis Merge v6.5 NSIS文本对比.rar

Araxis Merge 是一款专业的可视化文件比较以及合并和同步的软件，同时也是该软件目前最新的版本，新版带来了全新的功能以及优化，包括合并使您能够比较和处理不同版本的文本文件，如程序源代码，XML和HTML文件。合并可以从Microsoft Office，OpenDocument，PDF和RTF文件中提取和比较文本。XML文件可以以特殊格式显示，帮助您更清楚地看到更改。它支持ASCII，MBCS和Unicode字符编码的文件。

2019-12-19

xdown-1.0.1.4.zip

Xdown是一款超级强大的开源免费无广告的Torrent/磁力链/百度云下载神器。Xdown不光如此还支持BT，免费的IDM+torrent 可以多线程128并发的下载工具.

2019-12-11

z501_touchpad_win7.rar

TOUCHPAD采用多指触控技术，突破性实现了多个手指触摸行为的组合行为识别。通过不同自定义手势，可以轻松完成开启、翻页、伸缩等多种强大功能，实现了用简单的手指触摸行为完成复杂的人机交互。下载安装即可，非常方便

2019-12-11

influxdb_demo.zip

InfluxDB（时序数据库），常用的一种使用场景：监控数据统计。每毫秒记录一下电脑内存的使用情况，然后就可以根据统计的数据，利用图形化界面（InfluxDB V1一般配合Grafana）制作内存使用情况的折线图；可以理解为按时间记录一些数据（常用的监控数据、埋点统计数据等），然后制作图表做统计；

2019-11-22

KeyFreeze键盘鼠标上锁工具

KeyFreeze键盘鼠标上锁工具，直接解压，并运行KeyFreeze.exe，点击右键设置；锁住键盘和鼠标，解锁Ctrl+F

2019-11-15

GitHub Windows版本客户端

GitHub Windows版本客户端直接解压，安装即可使用，直接登录GitHub，方便提交代码以及维护代码

2019-11-15

raidrive-1-8-0版本网盘映射到本地磁盘工具

RaiDrive是能够将一些网盘映射为本地网络磁盘的工具，RaiDrive可以方便的将网盘映射为本机的网络磁盘，而在支持的网盘有Google Drive, Google Shared drives,Google Photos, OneDrive, SharePoint,Dropbox, Box, pCloud, Yandex Disk,WebDAV, SFTP, FTP

2019-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

lxml_liunx_python2.7.zip

flume-ng-elasticsearch-sink-1.8.0.jar

kettle资源库表详细说明文档.xls

kettle资源库数据字典.xls

2020年中国行政区划四级街道镇标准GB-T2260（EXCEL版本）.xlsx

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

Araxis Merge v6.5 NSIS文本对比.rar

xdown-1.0.1.4.zip

z501_touchpad_win7.rar

influxdb_demo.zip

KeyFreeze键盘鼠标上锁工具

GitHub Windows版本 客户端

raidrive-1-8-0版本网盘映射到本地磁盘工具

空空如也

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

GitHub Windows版本客户端