自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据之道读书笔记-10未来已来:数据成为企业核心竞争力

数字化转型不能一蹴而就,数据治理也不是一朝一夕之功。数字化转型带来机遇的同时,也给整个企业的数据治理带来了新的挑战。基于对华为公司数字化转型的解读,我们建立了数据综合治理体系,发布了信息架构,构建了数据湖、数据底座,打造了数据感知、安全合规能力,提升了数据质量。但是,在数据成为新的生产要素,数据成为企业核心竞争力的情况下,未来已来,面对这样一个新的、复杂的内外部环境,非数字原生企业在数据治理的问题上,做了哪些思考?我们应当如何应对?数字化变革改变了人们看待数据的方式。数据不再仅仅被视为商业活动的副产品,而是

2022-12-06 18:57:58 304

原创 数据之道读书笔记-09打造“安全合规”的数据可控共享能力

在企业进行数据治理,开展数据底座建设工作之前,用户经常面临的一个问题:使用数据做分析洞察的时候找不到数据,数据分散,或数据获取困难。为了消除数据“孤岛”,我们构建了公司统一的数据底座,汇聚、联接大量的企业数据。但是,大量的数据汇集在一个湖中,如何在内外部合规的基础上,确保业务能够迅速获得所需数据,可控共享。这是企业在数字化转型过程中面临的共同问题,数据资产作为企业的核心战略资产,作为生产要素,锁在独立硬盘中是发挥不了价值的,那么,如何让数据在安全合规的前提下最大程度地发挥价值?这是数字化转型中的关键问题,如

2022-12-05 18:54:45 43

原创 数据之道读书笔记-08打造“清洁数据”的质量综合管理能力

越来越多的企业应用和服务都基于数据而建,数据质量是数据价值得以发挥的前提。例如企业运营效率主要依赖于数据获取的准确性和及时性,企业客户关系管理系统中的错误或不完整数据将导致客户沟通不顺畅,影响客户满意度。随着数据类型、数据来源的不断丰富以及数据量的飞速增长,企业面临数据质量问题的概率显著增加。数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。本章讲述数据质量基本概念和管理框架,详细说明数据质量控制、数据质量改进、数据质量度量的基本方法。企

2022-12-05 15:27:51 291

原创 数据之道读书笔记-07打造“数字孪生”的数据全量感知能力

在信息化时代构建的IT系统,基本上是功能化、烟囱化、封闭式的,只能给企业内部经过培训的专业人员使用,所有的决策数据和我们信任的IT系统基本都是靠人来录入数据。但是,人如果犯错呢?数字化转型是在解决工业革命时代没有解决的效率和成本问题,所以如果转型依赖的数据,还是需要组织大量专业人员去录入、去校验,那么就并没有从源头上解决数字化转型要解决的效率和成本问题。数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、安全的数据获取。2003年,Michae

2022-12-05 14:36:44 149

原创 数据之道读书笔记-06面向“自助消费”的数据服务建设

参考IEEE规范,华为公司给出了数据服务的定义。数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。以图6-4为例,数据服务和传统集成方式有很大区别,数据的使用方(不仅仅是IT系统人员,也可以是具体业务人员)不再需要点对点地寻找数据来源,再点对点地进行数据集成,从而形成错综复杂的集成关系,而是通过公共数据服务按需获取各类数据。1. 数据服务给企业带来的价值数据服务给企业带来了如图6-5所示的价值。

2022-11-26 17:45:42 491

原创 数据之道读书笔记-05面向“联接共享”的数据底座建设

定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分地共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。数据定级密度在属性层级,根据资产的重要程度,定义不同等级。不同密级的数据有相应的数据消费要求,为了促进公司数据的消费,数据湖中的数据有相应的降密机制,到降密期或满足降密条件的数据应及时降密,并刷新密级信息。

2022-11-17 14:28:12 151

原创 数据之道读书笔记-04面向“业务交易”的信息架构建设

例如,合同是公司最重要的数据之一,因此有必要对合同编号制订统一的数据标准,包括编号的位数、具体的编码规则等,一旦合同编号数据标准制订下来,那么整个公司所有业务部门都必须共同遵守,除了数据Owner以外,任何部门都不允许自定义合同编号。如果随着业务发展需要对合同编号进行变更,那么相关需求也应该统一由数据Owner受理,统一制订变更方案。一旦不同业务环节各自定义,那么数据就无法在上下游业务之间快速流转,往往需要额外的人工转换和翻译,这会极大地增加不必要的人工成本、延长业务执行周期、降低业务效率。

2022-11-15 11:08:26 116

原创 数据之道读书笔记-03差异化的企业数据分类管理框架

不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,如结构化数据和非结构化数据、内部数据和外部数据、原始数据和衍生数据、明细数据和汇总数据等。华为在业界的数据分类基础上,结合自身多年的实践,已形成完整的数据分类管理框架。华为对数据进行分类的目的,是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。

2022-11-14 17:30:20 72

原创 数据之道读书笔记-02建立企业级数据综合治理体系

数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从,这是一个非常复杂的系统工程。华为公司经过十多年的实践证明,只有构筑一套企业级的数据综合治理体系,才能确保关键数据资产有清晰的业务管理责任,IT建设有稳定的原则和依据,作业人员有规范的流程和指导;当面临争议时,有裁决机构和升级处理机制;治理过程所需的人才、组织、预算有充足的保障。

2022-11-14 14:10:42 38

原创 数据之道读书笔记-01数据驱动的企业数字化转型

随着通信与数字技术的发展,网络化和数字化给人类带来更多的精彩和无限的可能,推动我们进入全联接的信息时代和大数据时代。因此,如何响应这个时代的变化是当前所有企业都需要考虑的问题。在这样的时代背景下,数字化转型正在改变许多企业和行业的运作模式,无论是数字原生企业,还是非数字原生企业,都在积极探索数字化转型。社会经济大环境的变化、行业趋势的变化、竞争对手的压力、公司的战略优化、自身经营的改善等是企业数字化转型最主要的驱动力。IDC(国际数据公司)预测,鉴于竞争对手和产业都在进行数字化转型,如果企业不能快速实现数字

2022-11-09 18:21:18 254

原创 数据湖技术之数据中心 Hudi案例实战

本案例基于Flink SQL 与Hudi整合,将MySQL数据库业务数据,实时采集存储到Hudi表中,使用Presto和Flink SQL分别进行离线查询分析和流式查询数据,最后报表存储到MySQL数据库,使用FineBI整合进行可视化展示。1、MySQL数据库:传智教育客户业务数据存储及离线实时分析报表结果存储,对接可视化FineBI工具展示。2、Flink SQL 引擎使用Flink SQL中CDC实时采集MySQL数据库表数据到Hudi表,此外基于Flink SQL Connector整合Hud

2022-09-30 10:00:44 435

原创 数据湖技术之社交数据Hudi案例实战

1、Apache Flume:分布式实时日志数据采集框架由于业务端数据在不断的在往一个目录下进行生产, 我们需要实时的进行数据采集, 而flume就是一个专门用于数据采集工具,比如就可以监控某个目录下文件, 一旦有新的文件产生即可立即采集。2、Apache Kafka:分布式消息队列Flume 采集过程中, 如果消息非常的快, Flume也会高效的将数据进行采集, 那么就需要一个能够快速承载数据容器, 而且后续还要对数据进行相关处理转换操作, 此时可以将flume采集过来的数据写入到Kafka中,进行消

2022-09-29 14:46:05 543

原创 数据湖技术之 Hudi 集成 Flink

Flink集成Hudi时,本质将集成jar包:hudi-flink-bundle_2.12-0.9.0.jar,放入Flink 应用CLASSPATH下即可。Flink SQLConnector支持Hudi作为Source和Sink时,两种方式将jar包放入CLASSPATH路径:● 方式一:运行Flink SQL Client命令行时,通过参数【-j xx.jar】指定jar包● 方式二:将jar包直接放入Flink软件安装包lib目录下【$FLINK_HOME/lib】

2022-09-29 10:02:06 268

原创 数据湖技术之Hudi 集成 Spark

数据湖框架Hudi,从诞生之初支持Spark进行操作,后期支持Flink,接下来先看看与Spark整合使用,并且在0.9.0版本中,提供SparkSQL支持,编写DDL和DML操作数据。Hudi数据湖框架,开始与Spark分析引擎框架整合,通过Spark保存数据到Hudi表,使用Spark加载Hudi表数据进行分析,不仅支持批处理和流计算,还可以集成Hive进行数据分析,安装大数据其他框架:MySQL、Hive、Zookeeper及Kafka,便于案例集成整合使用。采用tar方式安装MySQL数据库,具体

2022-09-27 16:11:19 745 2

原创 数据湖技术之Hudi 核心概念

Hudi数据湖框架的基本概念及表类型,属于Hudi框架设计原则和表的设计核心。文档:https://hudi.apache.org/docs/concepts.html。

2022-09-27 15:16:41 409

原创 数据湖技术之快速体验 Hudi

Hudi数据集的组织目录结构与Hive表示非常相似,一份数据集对应这一个根目录。数据集被打散为多个分区,分区字段以文件夹形式存在,该文件夹包含该分区的所有文件。在根目录下,每个分区都有唯一的分区路径,每个分区数据存储在多个文件中。每个文件都有惟一的fileId和生成文件的commit所标识。如果发生更新操作时,多个文件共享相同的fileId,但会有不同的commit。每条记录由记录的key值进行标识并映射到一个fileId。

2022-09-23 16:26:45 361

原创 数据湖技术之 Hudi 框架概述

Data lake这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是: 把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。数据湖(Data Lake)和数据库、数据仓库一样,都是数据存储的设计模式。数据库和数据仓库会以关系型的方式来设计存储、处理数据。但数据湖的设计理念是相反的,数据仓库是为了保障数据的质量、数据的一致性、数据的重用性等对数据进行结构化处理。数据湖是一个数据存储库,可以使用数据湖来存储大量的原始数据。

2022-09-23 16:01:40 340

原创 设计模式-23模板模式(模板设计模式)详解

意图:定义一个操作中的算法的骨架,而将一些步骤延迟到子类中。模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。主要解决:一些方法通用,却在每一个子类都重新写了这一方法。何时使用:有一些通用的方法。如何解决:将这些通用算法抽象出来。关键代码:在抽象类实现,其他步骤在子类实现。应用实例:1、在造房子的时候,地基、走线、水管都一样,只有在建筑的后期才有加壁橱加栅栏等差异。2、西游记里面菩萨定好的 81 难,这就是一个顶层的逻辑骨架。

2022-08-24 17:11:02 23

原创 设计模式-22策略模式(策略设计模式)详解

意图:定义一系列的算法,把它们一个个封装起来, 并且使它们可相互替换。主要解决:在有多种算法相似的情况下,使用 if…else 所带来的复杂和难以维护。何时使用:一个系统有许多许多类,而区分它们的只是他们直接的行为。如何解决:将这些算法封装成一个一个的类,任意地替换。关键代码:实现同一个接口。应用实例:1、诸葛亮的锦囊妙计,每一个锦囊就是一个策略。2、旅行的出游方式,选择骑自行车、坐汽车,每一种旅行方式都是一个策略。3、JAVA AWT 中的 LayoutManager。

2022-08-24 10:26:11 24

原创 设计模式-21状态模式(状态设计模式)详解

意图:允许对象在内部状态发生改变时改变它的行为,对象看起来好像修改了它的类。主要解决:对象的行为依赖于它的状态(属性),并且可以根据它的状态改变而改变它的相关行为。何时使用:代码中包含大量与对象状态有关的条件语句。如何解决:将各种具体的状态类抽象出来。关键代码:通常命令模式的接口中只有一个方法。而状态模式的接口中有一个或者多个方法。而且,状态模式的实现类的方法,一般返回值,或者是改变实例变量的值。也就是说,状态模式一般和对象的状态有关。实现类的方法有不同的功能,覆盖接口中的方法。

2022-08-24 10:14:18 68

原创 hive split函数空串分隔数组有空元素

select split(substring(concat_ws(‘,’,split(‘这是一段普普通通的文字’,‘’)),0,length(concat_ws(‘,’,split(‘这是一段普普通通的文字’,‘’)))-1),‘,’);这种方法是在不怎么优雅,有其他好的办法,多多交流哈。...

2022-08-17 17:59:11 529

原创 设计模式-20观察者模式(观察者设计模式)详解

定义对象间的一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。一个对象状态改变给其他对象通知的问题,而且要考虑到易用和低耦合,保证高度的协作。一个对象(目标对象)的状态发生改变,所有的依赖对象(观察者对象)都将得到通知,进行广播通知。使用面向对象技术,可以将这种依赖关系弱化。在抽象类里有一个 ArrayList 存放观察者们。1、拍卖的时候,拍卖师观察最高标价,然后通知给其他竞价者竞价。...

2022-08-16 17:05:33 44

原创 设计模式-19备忘录模式(备忘录设计模式)详解

在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态。所谓备忘录模式就是在不破坏封装的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态,这样可以在以后将对象恢复到原先保存的状态。很多时候我们总是需要记录一个对象的内部状态,这样做的目的就是为了允许用户取消不确定或者错误的操作,能够恢复到他原先的状态,使得他有"后悔药"可吃。通过一个备忘录类专门存储对象状态。客户不与备忘录类耦合,与备忘录管理类耦合。1、后悔药。2、打游戏时的存档。...

2022-08-16 15:55:51 50

原创 设计模式-18中介者模式(中介者设计模式)详解

用一个中介对象来封装一系列的对象交互,中介者使各对象不需要显式地相互引用,从而使其耦合松散,而且可以独立地改变它们之间的交互。对象与对象之间存在大量的关联关系,这样势必会导致系统的结构变得很复杂,同时若一个对象发生改变,我们也需要跟踪与之相关联的对象,同时做出相应的处理。多个类相互耦合,形成了网状结构。将上述网状结构分离为星型结构。对象 Colleague 之间的通信封装到一个类中单独处理。1、中国加入 WTO 之前是各个国家相互贸易,结构复杂,现在是各个国家通过 WTO 来互相贸易。...

2022-08-16 15:44:06 39

原创 设计模式-17迭代器模式(迭代器设计模式)详解

提供一种方法顺序访问一个聚合对象中各个元素, 而又无须暴露该对象的内部表示。不同的方式来遍历整个整合对象。**何时使用:**遍历一个聚合对象。**如何解决:**把在元素之间游走的责任交给迭代器,而不是聚合对象。**关键代码:**定义接口:hasNext, next。**应用实例:**JAVA 中的 iterator。1、它支持以不同的方式遍历一个聚合对象。2、迭代器简化了聚合类。3、在同一个聚合上可以有多个遍历。4、在迭代器模式中,增加新的聚合类和迭代器类都很方便,无须修改原有代码。.........

2022-08-16 15:27:00 42

原创 设计模式-16解释器模式(解释器设计模式)详解

给定一个语言,定义它的文法表示,并定义一个解释器,这个解释器使用该标识来解释语言中的句子。对于一些固定文法构建一个解释句子的解释器。如果一种特定类型的问题发生的频率足够高,那么可能就值得将该问题的各个实例表述为一个简单语言中的句子。这样就可以构建一个解释器,该解释器通过解释这些句子来解决该问题。构建语法树,定义终结符与非终结符。构建环境类,包含解释器之外的一些全局信息,一般是 HashMap。编译器、运算表达式计算。1、可扩展性比较好,灵活。2、增加了新的解释表达式的方式。3、易于实现简单文法。......

2022-08-16 14:57:03 26

原创 java开发手册-07设计规约

代码】java开发手册-07设计规约。

2022-08-16 10:00:19 112

转载 java开发手册-06工程结构

代码】java开发手册-06工程结构。

2022-08-16 09:45:58 53

原创 java开发手册-05MySQL 数据库

代码】java开发手册-05MySQL 数据库。

2022-08-16 09:17:06 108

原创 java开发手册-04安全规约

代码】java开发手册-04安全规约。

2022-08-15 11:19:52 63

原创 java开发手册-03单元测试

10.【推荐】对于数据库相关的查询,更新,删除等操作,不能假设数据库里的数据是存在的,或者直接操作数据库把数据插入进去,请使用程序插入或者导入数据的方式来准备数据。11.【推荐】和数据库相关的单元测试,可以设定自动回滚机制,不给数据库造成脏数据。说明:在工程规约的应用分层中提到的 DAO 层,Manager 层,可重用度高的 Service,都应该进行单元测试。12.【推荐】对于不可测的代码在适当的时机做必要的重构,使代码变得可测,避免为了达到测试要求而书写不规范测试代码。⚫ 单元测试代码是多余的。...

2022-08-15 08:51:05 63

原创 java开发手册-02异常日志

阿里java开发手册-02异常日志。

2022-08-12 17:04:12 44

原创 java开发手册-01编程规约

强制】不允许任何魔法值(即未经预先定义的常量)直接出现在代码中。反例: //本例中同学 A 定义了缓存的 key,然后缓存提取的同学 B 使用了 Id#taobao 来提取,少了下划线,导致故障。【强制】在 long 或者 Long 赋值时,数值后使用大写的 L,不能是小写的 l,小写容易跟数字混淆,造成误解。说明:Long a = 2l;写的是数字的 21,还是 Long 型的 2。【推荐】不要使用一个常量类维护所有常量,要按常量功能进行归类,分开维护。...

2022-08-10 15:53:39 55

原创 推荐系统实践读书笔记-08评分预测问题

本书到目前为止都是在讨论TopN推荐,即给定一个用户,如何给他生成一个长度为N的推荐列表,使该推荐列表能够尽量满足用户的兴趣和需求。本书之所以如此重视TopN推荐,是因为它非常接近于满足实际系统的需求,实际系统绝大多数情况下就是给用户提供一个包括N个物品的个性化推荐列表。但是,很多从事推荐系统研究的同学最早接触的却是评分预测问题。从GroupLens到Netflix Prize到Yahoo!Music的KDD Cup,评分预测问题都是推荐系统研究的核心。评分预测问题最基本的数据集就是用户评分数据集。....

2022-08-10 10:43:45 502

原创 设计模式-15命令模式(命令设计模式)详解

意图:将一个请求封装成一个对象,从而使您可以用不同的请求对客户进行参数化。主要解决:在软件系统中,行为请求者与行为实现者通常是一种紧耦合的关系,但某些场合,比如需要对行为进行记录、撤销或重做、事务等处理时,这种无法抵御变化的紧耦合的设计就不太合适。何时使用:在某些场合,比如要对行为进行"记录、撤销/重做、事务"等处理,这种无法抵御变化的紧耦合是不合适的。在这种情况下,如何将"行为请求者"与"行为实现者"解耦?将一组行为抽象为对象,可以实现二者之间的松耦合。如何解决。...

2022-08-09 17:36:08 45

原创 推荐系统实践读书笔记-07推荐系统实例

前面几章介绍了各种各样的数据和基于这些数据的推荐算法。在实际系统中,前面几章提到的数据大都存在,因此如何设计一个真实的推荐系统处理不同的数据,根据不同的数据设计算法,并将这些算法融合到一个系统当中是本章讨论的主要问题。本章将首先介绍推荐系统的外围架构,然后介绍推荐系统的架构,并对架构中每个模块的设计进行深入讨论。...

2022-08-09 09:22:09 58

原创 推荐系统实践读书笔记-06利用社交网络数据

社交网络定义了用户之间的联系,因此可以用图定义社交网络。我们用图G(V,E,w)定义一个社交网络,其中V是顶点集合,每个顶点代表一个用户,E是边集合,如果用户va和vb有社交网络关系,那么就有一条边e(va,vb)连接这两个用户,而w(va,vb)定义了边的权重。业界有两种著名的社交网络。一种以Facebook为代表,它的朋友关系是需要双向确认的,因此在这种社交网络上可以用无向边连接有社交网络关系的用户。另一种以Twitter为代表,它的朋友关系是单向的,因此可以用有向边代表这种社交网络上的用户关系。...

2022-08-08 11:44:16 261

原创 设计模式-14责任链模式(责任链设计模式)详解

意图:避免请求发送者与接收者耦合在一起,让多个对象都有可能接收请求,将这些对象连接成一条链,并且沿着这条链传递请求,直到有对象处理它为止。主要解决:职责链上的处理者负责处理请求,客户只需要将请求发送到职责链上即可,无须关心请求的处理细节和请求的传递,所以职责链将请求的发送者和请求的处理者解耦了。何时使用:在处理消息的时候以过滤很多道。如何解决:拦截的类都实现统一接口。关键代码。...

2022-08-05 15:52:43 52

原创 设计模式-13享元模式(享元设计模式)详解

意图:运用共享技术有效地支持大量细粒度的对象。主要解决:在有大量对象时,有可能会造成内存溢出,我们把其中共同的部分抽象出来,如果有相同的业务请求,直接返回在内存中已有的对象,避免重新创建。何时使用: 1、系统中有大量对象。2、这些对象消耗大量内存。3、这些对象的状态大部分可以外部化。4、这些对象可以按照内蕴状态分为很多组,当把外蕴对象从对象中剔除出来时,每一组对象都可以用一个对象来代替。5、系统不依赖于这些对象身份,这些对象是不可分辨的。如何解决。...

2022-08-05 15:23:44 50

原创 设计模式-12外观模式(外观设计模式)详解

意图:为子系统中的一组接口提供一个一致的界面,外观模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。主要解决:降低访问复杂系统的内部子系统时的复杂度,简化客户端之间的接口。何时使用: 1、客户端不需要知道系统内部的复杂联系,整个系统只需提供一个"接待员"即可。2、定义系统的入口。如何解决:客户端不与系统耦合,外观类与系统耦合。关键代码:在客户端和复杂系统之间再加一层,这一层将调用顺序、依赖关系等处理好。应用实例。......

2022-08-05 15:12:57 34

chinese_L-12_H-768_A-12.zip

人工智能—机器学习—深度学习—自然语言处理(NLP)——BERT中文预训练模型,使用绝大部分场景,不同领域也可使用

2020-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除