云计算大数据虚拟化
文章平均质量分 65
大数据基础
有勇气的牛排
CSDN全栈&网络安全领域优质创作者、阿里云社区博客专家。
新时代,新征程,站在AI的肩膀上开启无限可能;学会字典、使用字典、现学现用,技术的价值体现在能否解决实际问题,具有时效性,做不到灵活应用,只懂死记硬背,终将被AI所替代。
写博客是为了系统化构建与盘点知识,并且减小记忆成本;同时,希望本人分享的文章能够帮助到更多的开发者,让编程产生更大价值。非常欢迎热衷于技术的朋友关注,交个朋友,一起探索未知。
展开
-
《大数据 知识图谱导航》有勇气的牛排
有勇气的牛排 大数据专栏原创 2021-03-17 23:11:54 · 207 阅读 · 0 评论 -
工作流调度系统 Azkaban使用方法大全(二)
Azkaban中预置了几个特殊的判断条件,称为预定义宏。预定义宏会根据所有父job的完成情况进行判断,在决定是否执行。可用的预定义宏入下:1、all_sucess: 表示父job全部成功才执行(默认)2、all_done:表示父job全部完成才执行3、all_failed:表示父job全部失败才执行4、one_sucess:表示父job至少一个成功才执行5、one_failed:表示父job至少一个失败才执行jobA执行一个shell脚本jobB执行一个shell脚本。原创 2023-04-19 20:29:54 · 971 阅读 · 5 评论 -
工作流调度系统 Azkaban介绍与安装(一)
(1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序、java程序、MapReduce程序、Hive脚本等。(2)各个单元之间存在时间先后及前后依赖关系(3)为了很好地组织这样的复杂执行计划,需要一个工作流调度系统来执行。原创 2023-04-17 22:05:55 · 642 阅读 · 9 评论 -
hadoop报错HdfsError: Permission denied: user=dr.who, access=WRITE, inode=“/“:root:supergroup:drwxr-x
修改core-site.xml,配置为当前用户。原创 2023-02-19 16:12:50 · 351 阅读 · 0 评论 -
hive数据仓库基础语法实战操作
首先,我们在本地文件系统创建测试内容。然后在hive终端执行。原创 2022-10-20 16:37:39 · 364 阅读 · 6 评论 -
hadoop HA高可用集群实战
HA(high available),即高可用(24h不中断服务)实现高可用最关键的策略是消除单点故障。HA严格来说是应该分成各个组件的HA机制hadoop2.0之前,在HDFS集群中NamNode存在单点故障(SPOF)NameNode主要存在以下两个方敏影响HDFS集群。NameNode机器发生意外,如宕机,集群无法使用,直到管理员重启。NameNode机器需要升级,包括软件,硬件升级,此时集群也将无法使用。原创 2022-10-12 16:12:29 · 1353 阅读 · 0 评论 -
DolpinScheduler2.0.5详细介绍与踩坑实战
Apache DolphinScheduler是一个分布式易扩展的可视化工作流任务调度平台,致力于解决数据处理流程中错综复杂的关系,使调度系统在数据处理流程中开箱即用。版本:2.0.5。原创 2022-08-07 23:06:49 · 2759 阅读 · 0 评论 -
Zookeeper使用介绍与集群搭建实战
Zookeeper是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务式环境中协调和管理服务是一个复杂的过程。Zookeeper通过简单的架构和API解决了这个问题。Zookeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。............原创 2022-08-07 21:40:53 · 3023 阅读 · 0 评论 -
es数据导出csv文件
1 介绍es数据导出到csv文件,暂时不考虑效率问题,仅谈实现方式。2 python3def connect_elk(): client = Elasticsearch(hosts='http://192.168.56.20:9200', http_auth=("elastic", "elastic密码"), # 在做任何操作之前,先进行嗅探原创 2022-04-14 15:39:45 · 2211 阅读 · 0 评论 -
python操作Elasticsearch7.17.0
文章目录1 介绍2 安装 连接3 索引操作3.1 创建索引3.2 判断索引是否存在4 新增数据5 删除数据5 修改数据6 查询数据6.1 查询所有数据1 介绍官方文档:https://www.elastic.co/guide/en/enterprise-search-clients/python/7.17/index.htmlpypi文档:https://pypi.org/project/elasticsearch/7.17.0/2 安装 连接pip install elasticsearch原创 2022-02-26 23:38:04 · 2347 阅读 · 0 评论 -
轻量型日志采集器 Filebeat基本使用
文章目录1 介绍2 安装2.1 下载安装3 收集日志配置4 启动5 举例5.1 Filebeat收集日志并输出到控制台5.2 Filebeat收集Nginx运行日志并输出到es5.3 基于Nginx module使用Filebeat收集Nginx运行日志并输出到es1 介绍Filebeat是一个日志文件托运工具,安装客户端后,filebeat会监控指令日志,下载地址:https://www.elastic.co/cn/beats/filebeathttps://www.elastic.co/cn/原创 2022-02-23 00:56:45 · 2138 阅读 · 0 评论 -
Elasticearch 查询详解 (二)
文章目录1 Rest风格说明1.1 创建一个索引1.1.1 字段类型:1.1.2 获取索引信息1.1.3 查看索引默认信息1.2 其他 _cat1.2 修改1.2.1 PUT覆盖1.2.2 POST更新1.3 删除索引2 文档基本操作2.1 基本操作2.1.1 添加数据2.1.2 查数据2.1.3 更新数据 PUT2.1.4 更新数据 POST (推荐)2.2 复杂查询2.2.1 模糊查询2.2.2 _source: 结果过滤2.2.3 sort: 排序2.2.4 分页2.2.5 bool 多条件精确查原创 2022-02-22 19:03:23 · 1535 阅读 · 0 评论 -
Elasticearch 安装 基础介绍 (一)
Elasticsearch是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。它用于全文搜索、结构或搜索、分析以及将这三者混合使用搜索纠错、实时反馈环境:官网:https://www.elastic.co/cn下载:https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-6-2我们在windows下演示ELK三剑客,解压即用:启动:访问测试2.1.2 linxu安装2.2 可视化界面 elasti原创 2022-02-22 18:32:27 · 5199 阅读 · 0 评论 -
elasticsearch常见报错总结
1 error updating geoip database [GeoLite2-Country.mmdb]在config/elasticsearch.yml中添加如下配置:ingest.geoip.downloader.enabled: false2 deprecation logs failed: autoGeneratedTimestamp should not be set externally参考文章:https://blog.csdn.net/w184167377/article原创 2022-02-21 23:16:19 · 4605 阅读 · 0 评论 -
ElasticSearch配置优先使用自带jdk
文章目录1 介绍2 windows1 介绍ElasticSearch jdk配置2 windows修改elasticsearch-env.batif defined ES_JAVA_HOME ( set JAVA="%ES_JAVA_HOME%\bin\java.exe" set JAVA_TYPE=ES_JAVA_HOME) else if defined JAVA_HOME ( rem fallback to JAVA_HOME echo "warning: usage of原创 2022-02-21 22:59:19 · 3542 阅读 · 0 评论 -
VMware Workstation 与 Device/Credential Guard 不兼容。在禁用 Device/Credenti
出现问题的原因出现此问题的原因是Device Guard或Credential Guard与Workstation不兼容。Windows系统的Hyper-V不兼容导致。解决方案第一步:1.Win+R 输入gpedit.msc2.计算机配置—管理模板—Device Guard—打开—打开给予虚拟化安全:选择禁用3.然后点击 应用—确定第二步:Win+R 输入services.msc双击HV主机服务选择禁用 然后点击 应用—确定第三步:...原创 2021-08-07 14:41:59 · 11763 阅读 · 2 评论 -
443 ERROR [main] client.ConnectionManager$HConnectionImplementation: Can‘t get connection to ZooKeep
HBase报错443 ERROR [main] client.ConnectionManager$HConnectionImplementation: Can’t get connection to ZooKeeper: KeeperErrorCode = ConnectionLoss for /hbase在启动Hbase Shell之前,请确保正确设置JAVA_HOME和属性。您必须在hbase-site.xml文件中设置以下给定属性<configuration> <prope原创 2021-08-07 14:39:33 · 3166 阅读 · 0 评论 -
hive数据仓库完整配置指南
作为大数据界的萌新,这篇文章的写作过程,经历了各种阻挠,也踩了无数坑,俗话说面向CSDN编程,这搜着搜着就到了国外,当一大堆的英文向你彪来的时候,就知道有一定的英语底子是多么重要了。不管从事编程多久,我们仍然保持着这种开源精神,愿意将自己的学习成果拿出来供新人学习原创 2021-04-21 23:44:49 · 1234 阅读 · 2 评论 -
Ubuntu伪分布式hadoop安装
先解压到下面目录然后到home里面将下面配置粘贴到任意位置1.2 安装免密查看登陆其他电脑2.hadoop 配置2.1 权限配置将hadoop解压到 目录下并且给 /usr/local/hadoop-3.2.2 授权超级用户2.2 修改配置文件2.2.1 hadoop-env.sh在54行左右2.2.2 核心配置core-site.xml临时目录不用自己建,系统会自动生成2.2.3 hdfs-site.xml2.2.4 mapreduce设置 mapred-s原创 2021-03-17 12:08:39 · 400 阅读 · 0 评论 -
hadoop程序开发 --- python
这里以统计单词为例1 首先建立mapper.pymkdir /usr/local/hadoop-pythoncd /usr/local/hadoop-pythonvim mapper.pymapper.py#!/usr/bin/env pythonimport sys# input comes from STDIN (standard input) 输入来自STDIN(标准输入)for line in sys.stdin: # remove leading and trail原创 2020-11-25 21:00:12 · 248 阅读 · 0 评论 -
hadoop程序开发--- Java
1、创建maven项目如果不懂配置maven请点击:传送门2、在pom.xml写入架包配置文件<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-common --> <dependency> <groupId>org.apache.hadoop</groupId> <artif原创 2020-11-20 19:54:32 · 2203 阅读 · 1 评论 -
hadoop 全分布式部署
cd $HADOOP_HOME 在/etc/profile中设置过了1. hadoop-env.shvim /usr/local/hadoop-2.8.4/etc/hadoop/hadoop-env.sh26 export JAVA_HOME=/usr/local/jdk1.8.0_15134 export HADOOP_CONF_DIR=/usr/local/hadoop-2.8.4/etc/hadoop/source /usr/local/hadoop-2.8.4/etc/had原创 2020-11-05 20:46:07 · 660 阅读 · 1 评论 -
单机版 hadoop 云平台(伪分布式)搭建 统计单词
1.首先需要配置java环境CentOS安装java jdk教程2.上传hadoop到/usr/local目录 并解压cd /usr/locallslinux上传下载文件教程3.配置hadoop环境目录vim /etc/profile#java environmentexport JAVA_HOME=/usr/local/jdk1.8.0_151export JRE_HOME=/usr/local/jdk1.8.0_151/jre#export PATH=$PATH:/usr/原创 2020-10-16 00:09:15 · 426 阅读 · 2 评论