自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 【学习】数据管理的3种方法,看完后感叹:数字化转型、数据中台难?不难?

企业建立数据中台,是为了能够快速的赋能业务进行落地实施、改造、试错、转型;快速提升组织之间的协同效率,降低系统成本,实现数字化-智能化转型。当数据汇集之后,企业在做数据治理、数据建模、数据资产管理等工作之前,一定要先对企业的数据进行数据盘点,然后再去做数据资源规划。那么,如何进行有效的数据资源规划与设计呢?本篇,按顺序介绍如下:1.数据资源规划的目标2.数据资源规划的内容3.数据资源规划的方法1、数据资源规划的目标在问为什么要做数据资源规划,先和大家对企业信息化建设做个简单的梳理

2020-10-14 11:30:00 1176

原创 【学习】这套数据治理架构,用6步管理千万级数据!思考实践

企业数据其实是资产,那如何让资产产生作用,这是一门大学问。主数据管理是数据资产管理最重要和核心的内容,本文通过“一平台、两体系、三性特征、四个统一、五个超越、六类服务 ”应用场景,比较体系化详尽的介绍主数据治理、共享和应用全过程。1、主数据管理要点概览主数据是数据之源,是数据资产管理的核心,是信息系统互联互通的基石,是信息化和数字化的重要基础。1)一平台:搭建一个一体化数据治理和共享平台;2)两体系:建立两个体系(数据标准体系和保障体系);3)三性特征:确保主数据三性特征(唯一性

2020-10-13 10:31:01 816

原创 电网企业级数据中心应用中存在的问题,现阶段应对方法。

一、企业级数据中心应用推广中的弊端  1.电网企业数据中心建设多厂商、多技术形态,导致不同的各类数据分散,难以有统一的操作平台,gbase、SG-RDB(Mysql)、Hadoop、Informatica、等等。  2.企业数据中心建成后,支撑各业务部门开展大数据分析应用建设,每一个业务部门背后都有其固定的厂...

2020-06-12 09:37:20 521

原创 【学习】数据分析-SEMMA步骤解析

S:Sample(搜集数据)基于需求,有针对性的搜集可以解决问题的数据。常用的搜集手段有:• 问卷调查• 数据库查询• 实验室试验• 仪器设备的记录例如:影响收入的因素有哪些?如何预测他的收入范围呢?E:Explore(数据探索)通过数据探索,以求对数据的进一步了解。常用的探索方向有:• 离散变量的分布比例• 连续变量的分布形态• 数据的异常和缺失• 特征选择例如:各变量的缺失状态?统计描述?数据分布形态?M:Modify(数据修正)数据修正,便于下一步的分析和建模。

2020-06-10 19:42:39 1398

原创 爬虫-学习爬取表情包

要爬取的内容:具体的代码:# encoding: utf-8"""@version: 0.1@author: @site: @software: PyCharm@file: emoticonDemo.py@time: 2020-05-29 9:17"""import requestsimport re# 表情包地址# https://qq.yh31.com/zjbq/2920180.html# 表情图片地址# https://qq.yh31.com/tp/Phot

2020-06-01 09:23:26 921

原创 爬虫-豆瓣电影-一周口碑榜-爬取

# encoding: utf-8"""@version: 0.1@author: @site: @software: PyCharm@file: dpubanYizhouKoubei.py@time: 2020-06-01 8:47"""from lxml import etreeimport requestsurls = ['https://movie.douban.com/']ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) .

2020-06-01 09:10:47 420

原创 爬虫-豆瓣top250-电影爬取

# encoding: utf-8"""@version: 0.1@author: @site: @software: PyCharm@file: doubanDemo.py@time: 2020-05-28 21:53"""# 第一步 导入库import lxml.htmlimport csv, randomfrom urllib.request import urlopen, Requestfrom urllib import parse, request# 第二步 获取.

2020-06-01 08:16:47 505

转载 笔记-生成python代码依赖库,并下载

1、导出信息库pip freeze > requirements.txt这个命令是将已经通过pip安装的包的名称记录到requirements.txt文件中。导出这个文件后,编辑文件,留下你需要的库,其他删除。2. 下载库安装包pip download D:\packages -r requirements.txt注意:win10有可能因为写入权限的问题导致无法操作成功,可以直接进入目标文件夹然后执行:pip download -r requirements.txt将r

2020-05-27 09:08:36 196

原创 Flask-蓝图学习

什么是蓝图蓝图:用于实现单个应用的视图、模板、静态文件就是模块化处理的类。为什么要用蓝图随着业务代码的增加,把所有的代码都写进一个程序文件中是非常不合适的,这不仅仅会让代码阅读变得困难,而且会给后期维护带来麻烦。 因此需要让带吗模块化。根据具体不同的功能模块的实现,划分成不同的分类,降低功能模块之间的耦合度、python中的模块制作和导入就是基于实现功能模块的封装的需求。 p...

2020-03-07 19:57:09 157

原创 将博客搬至CSDN

我自愿将博客园搬家到CSDN

2020-03-02 11:48:00 60

原创 Flask学习-Virtualenv

http://www.pythondoc.com/VirtualEnvVirtualenv用于同一台机器上创建多个独立的Python虚拟运行环境,多个Python环境相互独立,互不影响,它能够:1、在没有权限的情况下安装新套件2、不同应用可以使用不同的套件版本3、套件升级不影响其他应用ubuntu16.4安装:[sudo] pip install vir...

2019-07-24 23:40:00 121

原创 linux安装python3.*,更换Python2.*

下载并解压:Python-3.5.7.tgz 1 [root@AH-aQYWTYSJZX01 python3]# ll 2 total 20268 3 -rw-r----- 1 temp01 temp01 20753760 Jul 11 08:30 Python-3.5.7.tgz 4 [root@AH-aQYWTYSJZX01 python3]# tar -zxvf...

2019-07-22 16:06:00 212

原创 Python安装jpype调用java,安装jaydebeapi通过jdbc连接数据库

pip installJPype1或下载JPype1-0.7.0.tar.gz包经常出现需要安装VC++服务等测试代码如下: 1 # Author: zfh 2 import jpype,os,time,timer 3 from jpype import java 4 from jpype import javax 5 6 HOST='19...

2019-07-17 23:59:00 833

原创 ImportError: No module named 'cx_Oracle'问题处理过程记录,安装python cx_Oracle库

错误如下:E:\pargram>pythonPython 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license" for mor...

2019-07-03 21:28:00 441

原创 Python操作分布式流处理系统Kafka

什么是KafkaKafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish或者subscribe消息,分布式提供了容错性,并发处理消息的机制。Kafka的基本概念kafka运行在集群上,集群包含一个或多个服务器。kafka把消息存在topic中,每一条消息包含键值(key),值(value)和时间戳(timestamp)。kafka有以下一些基本概念...

2019-05-14 08:48:00 251

原创 模仿学习小游戏外星人入侵-Python学习,体会“函数”编程

游戏类如下: 1 # !/usr/bin/python 2 # -*- coding:utf-8 -*- 3 """ 4 Author :ZFH 5 File :alien.py 6 Software :PyCharm 7 Datetime :2019-01-14 17:31 8 Version :v1.0 9 Funciton ...

2019-01-25 09:37:00 128

原创 外包项目复杂的环境中做项目管理真的很糟糕,我力求做好

  突然之间想写点什么,可能是写了一天的材料有点感慨,怎么开头呢,突然不好下手了。  我给这点感慨起了一个题目叫“在外包项目复杂的环境中做项目管理真的很糟糕,我力求做好”。  项目形态,客户(甲方)国企-承建厂商(乙方)-承建方供应商(N个丙方),而我只是一个丙方中的一员。至于为什么项目的管理让丙方的我来干,大致原因是这是一个非开发的技术类项目(实施技术项目),建立企业级数据...

2019-01-05 18:37:00 231

原创 浅谈常见的NoSQL技术方案和选型--转自零壹技术栈

转载仅为记录,方便学习。前言在互联网和大数据的背景下,越来越多的网站、应用系统需要支撑 海量数据存储、高并发请求、高可用、高可扩展性 等特性要求。传统的 关系型数据库 已经难以应对类似的需求,各种各样的 NoSQL(Not Only SQL)数据库因此而产生。本文将分析 传统数据库 的存在的问题,以及几类 NoSQL 如何解决这些问题。在不同的 业务场景 下,作...

2018-12-27 17:07:00 92

原创 kfka学习笔记一:使用Python操作Kafka

1、准备工作使用python操作kafka目前比较常用的库是kafka-python库,但是在安装这个库的时候需要依赖setuptools库和six库,下面就要分别来下载这几个库https://pypi.org/project/kafka-python/#files  1.1 下载setuptools  1.2 下载kafka-python  1.3下载six ...

2018-12-25 17:35:00 154

原创 浅谈大型分布式Web系统的架构演进--转自零壹技术栈

转载仅为记录,方便学习。前言我们以 Java Web 为例,来搭建一个简单的电商系统,看看这个系统可以如何一步步演变。该系统具备的功能:用户模块:用户注册和管理商品模块:商品展示和管理交易模块:创建交易和管理正文阶段一、单机构建网站网站的初期,我们经常会在单机上跑我们所有的程序和软件。此时我们使用一个容器,如Tomcat、...

2018-12-25 17:34:00 131

原创 记一份电网信息化建设企业信息分析平台规划

  在项目建设过程中,应需求,其规划大数据信息化平台建设总体方案。一、 总体原则  双创信息化平台建设遵循技术创新、应用创新,遵循国家、电网公司技术导向,充分考虑技术先进性,应用创新性。建设具备公司特色、具备创新特性、符合公司规范、满足公司发展及应用的一站式大数据信息化平台,提升公司大数据应用建设灵活性,充分发挥公司大数据资产价值。  双创信息化平台是在全业务统一数据中心...

2018-12-25 11:47:00 177

原创 2018年个人心灵历程记录

这一年一晃过去了,繁忙之余总给我一种仿佛昨天一样,很多想法很多事情”似曾相识“。也不知道该怎么评价这一年,关于评价,再容我想想。先就这一年的角色无序的梳理一下:1、我是一名讲师。从公司的新人培训、项目人员培训、公司项目客串培训、外聘培训等。内容包括ETL(informatica)、Oracle、OGG、企业信息化、大数据分析、电网数据中心等等,人数在数人...

2018-12-21 23:55:00 93

原创 OGG For Bigdata To Kafka同步问题处理

一、问题报错2018-12-17 16:02:01 ERROR OGG-15051 Java or JNI exception: oracle.goldengate.util.GGException: Error detected handling transaction commit event.  问题定位查看dirrpt下info log org.apa...

2018-12-18 16:49:00 1161

原创 SQL优化-标量子查询(数据仓库设计的隐患-标量子查询)

  项目数据库集群出现了大规模节点宕机问题。经查询,问题在于几张表被锁。主要问题在于近期得几个项目在数据库SQL编写时大量使用了标量子查询。为确定为题确实是由于数据表访问量超过单节点限制,做了一些测试。  数据库集群环境为:Gbase 8a资料查询情况总结如下:  标量子查询是一个非常恐怖的用法。  当外部表返回的数据量不大时,完全不会引起性能问...

2018-12-11 22:14:00 112

原创 Kafka+SpringMVC+Maven应用示例--转载

Kafka+SpringMVC+Maven应用示例  本文借助主流SpringMVC框架向大家介绍如何在具体应用中简单快捷的使用kafka。kafka、maven以及SpringMVC在现在的企业级应用中都占据着非常重要的地位,所以本文将三者结合起来也可以方便大家进一步熟悉基于Maven的SpringMVC框架搭建。项目展示  国际惯例,首先先向大家展示一...

2018-12-01 23:01:00 131 1

原创 CDH版hbase-0.98.1单机安装

HBase 的安装有两种方式:单机安装和分布式安装。HBase的单机安装了解即可,大家重点掌握HBase 分布式集群的安装。下面我们分别进行介绍。HBase 单机安装  HBase 需要运行在 Hadoop 基础之上,因此安装HBase 的前提是必须安装 Hadoop 环境。我的环境安装的是hadoop-2.6.0-cdh5.15.1.tar.gz,因此要选择匹配的版本,我选择的...

2018-11-30 23:47:00 93

原创 CDH版本hadoop2.6伪分布式安装

1、基础环境配置主机名IP地址角色Hadoop用户centos05192.168.48.105NameNode、ResourceManager、SecondaryNameNode、DataNode、NodeManagerhadoop1.1、关闭防火墙和SELinux1.1.1、关闭防火墙   略1.1.2、...

2018-11-28 10:28:00 88

原创 MYSQL数据的安装、配置

linux安装mysql服务分两种安装方法:  1、源码安装,优点是安装包比较小,只有十多M,缺点是安装依赖的库多,安装编译时间长,安装步骤复杂容易出错。  2、使用官方编译好的二进制文件安装,优点是安装速度快,安装步骤简单,缺点是安装包很大,376M左右。我这里官方编译好的Linux二进制包安装mysql。(记的第一次安装MYSQL是在学习Hadoop的时候,部署Hive,...

2018-11-25 13:28:00 193

原创 Redis介绍、安装部署、操作

学习连接:http://www.runoob.com/redis/redis-tutorial.html一、Redis介绍  Redis是NoSql的一种。  NoSql,全名:Not Only Sql,是一种非关系型数据库,它不能替代关系弄数据库,只是关系型数据库的一个补充,是可以解决高并发、高可用、高扩展、大数据存储等一系列问题而产生的数据库解决方案。NoSql有...

2018-11-24 21:27:00 94

原创 搭建一套Java开发环境以及使用eclipse从头一步步创建java项目

  一、java 开发环境的搭建  在windows 环境下怎么配置环境。  1.首先安装JDK  java的sdk简称JDK ,去其官方网站下载JDK。https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html    2.环境变量配置  运行下载的 ...

2018-11-16 22:43:00 186

原创 大数据、人工智能、知识图谱业务蓝图、技术架构-笔记

大数据总体架构 、知识图谱总体架构、NLP总体架构

2018-11-15 11:16:00 350

原创 Informatica PowerCenter使用介绍-转载

转载自:https://blog.csdn.net/wen_demon/article/details/441556391. INFORMATICA CLIENT的使用1.1Repository Manager 的使用1.1.1 创建Repository。前提:a. 在ODBC数据源管理器中新建一个数据源连接至你要创建Repository的数据库(例:jzjxdev)b. 要在...

2018-11-15 08:21:00 507

原创 从0到1和从1到100:项目经理的应对之道-摘抄

从0到1和从1到100:项目经理的应对之道1.从0到1:发现问题的能力大于解决问题1.1跟项目  初任项目经理,挑战有两点,一个是不同的环境,二是全新的身份。虽然一直在项目里工作,但是项目管理的工作还是片断的。  我不断的从我的领导和同事那里去学习项目管理方面的知识,公司分给我的项目(子项目)上我只能“跟”进项目:安排会议、记录会议纪要、发布项目周报、汇报项目进度。 ...

2018-11-14 19:13:00 262

原创 当项目经理需要修炼的9件事和优秀项目经理必备的8个要素-摘抄

当项目经理需要修炼的9件事作为项目经理,最重要的就是带领整个项目团队一起战斗,做好团队建设,才能激发整个团队成员的士气,提高团队成员的绩效。   然而,很多项目经理并不具备项目经理的基本素质或者知识技能。这里有一个很明显的对比,在国外,项目经理是受人景仰的,只有经验丰富的受人尊敬的专家才能成为项目经理。而在中国,项目经理往往是一个愣头青,还没明白社会是啥就当了项目经理。...

2018-11-14 19:10:00 421

原创 这4大误区!项目经理需警惕!--摘抄

这4大误区!项目经理需警惕!  项目管理的发展道路也不是一帆风顺的,在项目实践中也会遇到各种困难和困惑,经过对项目失败原因进行分析发现,除了项目的外在原因导致项目失败之外,项目经理本身存也存在着一些误区,这往往在项目管理中起决定性因素,会对项目实施造成直接或间接的负面影响。  在本文中,我们将就项目管理中常见的四大误区进行介绍,并就项目经理如何走出自己这些误区给出具体建议。误...

2018-11-14 19:05:00 71

原创 hbase的几种访问方式

Hbase的访问方式1、Native Java API:最常规和高效的访问方式;2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用;3、Thrift Gateway:利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据;4、REST Gateway:支持REST 风格的Htt...

2018-11-14 15:04:00 1703

原创 大数据人员技能体系-图1来自摘抄-以自勉(附项目技能分布以要求项目团队技能储备)...

图1 大数据技能体系一、数据库-熟悉两个产品Oracle、Gbase 8a。二、数据仓库-4年企业(电网)数据仓库建设。三、BI工具-熟悉一款BI产品Tableau。四、ETL-掌握一类产品Informatica。五、编程语言-java已不...

2018-11-14 15:03:00 159

原创 Hbase读取数据

get命令和HTable类的get()方法用于从HBase表中读取数据。使用 get 命令,可以同时获取一行数据。它的语法如下:get ’<table name>’,’row1’下面的例子说明如何使用get命令。扫描emp01表的第一行。hbase> get 'emp01', '1' COLUMN ...

2018-11-14 09:02:00 481

原创 利用新版本自带的Zookeeper搭建kafka集群

安装简要说明新版本的kafka自带有zookeeper,其实自带的zookeeper完全够用,本篇文章以记录使用自带zookeeper搭建kafka集群。1、关于kafka下载kafka下载页面:http://kafka.apache.org/downloads2、修改kafka配置文件kafka安装目录下的config文件夹为其配置文件,我们需要修改的有 server.properti...

2018-11-06 20:40:00 169

原创 简单搭建zookeeper集群分布式/伪分布式

分布式搭建一、下载zookeeper安装包 自行下载:我用的是 zookeeper-3.5.4-beta.tar.gz二、环境准备 1、 我的虚拟机自带的java是1.7的,这个版本要求java1.8的版本,因此又下载了java1.8,进行了环境变量配置 2、我准备了三台虚拟机,分别为192.168.48.101 、192.16...

2018-10-27 10:41:00 59

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除