ansap-CSDN博客

原创 zookeeper框架基础入门

Zookeeper的特点：1.Zookeeper：一个领导者（Leader), 多个跟随者(Follower) 组成的集群2.集群中只要有半数以上的节点存活，Zookeeper集群就能正常服务。3.全局数据一致：每个Server保存一份相同的数据副本，Client无论连接到哪个server数据都是一致的。4.更新请求顺序进行，来自同一个client的更新请求按期发送顺序依次执行5.数据...

2020-04-07 22:50:16 483

原创 centos6.5 安装python3.8

centos6.5 安装python3.8参考来源：http://ask.xmodulo.com/install-python3-centos.html1. 安装必要的工具sudo yum install yum-utils2. 使用 yum-builddep 命令设置 python 编译环境，下载缺少的依赖sudo yum-builddep python3. ...

2020-03-26 17:13:03 842

原创 python hashlib模块

hashlib模块主要是用于数据加密的模块。常用的加密算法：md5，sha，sha256，sha512等"""数据加密模块 hashlib"""import hashlibpassword = "admin"password2 = "234245045121812"# 进行md5加密运算px = hashlib.md5(password.encode("UTF-8"...

2019-10-24 16:08:56 212

原创 python字典 dict

字典是python中的组合数据类型，可以存放多个数据，但是字典的特点是存放的每个数据都是key-value键值对的对应对数据，在操作过程中，随时可以通过key找到对应的value数据，字典中每个value数据都有一个key变量描述value的意义，代码的可读性更好，同时字典中key可以直接找到value数据，字典的操作效率最高。字典的定义：names = {}dicts = {...

2019-10-24 15:19:40 302

原创 python集合 set

集合set：组合数据类型中的一种，可以存放多个、不能重复的，没有顺序的数据。集合也是一个数据容器，所以对于数据的操作：CRUD(增加、删除、修改、查询)dir(set) 系统中描述出来的各种操作方式，按照字母顺序自然排列['add', 'clear', 'copy', 'difference', 'difference_update', 'discard', 'intersec...

2019-10-24 14:42:41 274

原创 python元组 tuple

类型特点：可以存放多个、可以重复的，有顺序的数据，数据不可变。如果项目中需要定义多个数据到一个变量中存放存放的数据，在项目运行过程中，会发生数据的增加、修改、删除的：选择列表存放的数据，在项目运行过程中，不允许改变：选择元组元组一旦声明，数据不能发生变化。1.空元组，没有任何价值和意义。t= tuple()2.非空元组，声明方式如下：t= (“sp...

2019-10-24 14:34:56 157

原创 Python列表 list

python中的组合数据类型，使用list来表示：列表中可以存储多个、可以重复的、有顺序的数据。列表中的操作函数如下：append：列表的末尾增加一个数据extend：列表的末尾增加一组数据insert：列表中指定位置处增加一个数据pop：删除列表末尾的一个数据remove：删除列表中指定的数据clear：清空列表中所有数据del列表[编号]：删除列表中指定位置的...

2019-10-24 14:23:40 388

原创 Centos常用文件或目录操作命令

常用快捷键：1.ctrl+c 停止执行2.ctrl+l 清屏3.ctrl+q退出4.tab ：自动补全5.上下键：查看执行过的命令常用命令：1. ls 命令：用于显示目录下的所有文件2. ll 命令：显示目录下所有文件的详细信息3.pwd 命令：查看当前目录位置4.mkdir 命令：创建目录 mkdir 目录名：创建单层目录 mkdir...

2019-09-08 14:08:06 5680

原创 Hadoop技术生态之Hive数据仓库二(九)

Hive数据仓库基于shell命令行基本操作（DDL/DML）：首先启动hive数据库仓库的shell脚本模式：命令：/opt/mysoft/hive/bin/hive1> 查看当前Hive中有哪些数据库 hive初始化后，会生成一个默认的default数据库；往往根据项目不同，会建立不同业务的hive数据库；命令：show databases;2&g...

2019-06-03 17:29:11 233

原创 Hadoop生态之MapReduce工作机制二(七)

一、MapReduce程序的打包运行过程：1> 选中待打包项目，右键选择菜单export，导出项目2> 点击Next进行下一步操作，选择需要打包的类，输入导出jar包的名称和路径。(可以报lib包去掉，集群上包含的有mr的依赖包)3> 继续点击Next，在如下画面选择执行文件的主函数类，点击Finish完成导出4> 把导出的jar包通过wi...

2019-05-31 17:53:08 274

MapReduce是Hadoop提供的分布式并行计算框架，用户不用关心如何编写实现分布式并行计算代码，只需在Mapper 和Reducer 里实现自己业务逻辑就可以了。简化了编写分布式程序的复杂度。Hadoop中的mapreduce计算模型也是基于分布式计算原型的，是分布式计算的一种实现。Hadoop提供了mapreduce框架的底层实现，负责完成mapreduce程序分发到各个nodeMan...

2019-05-30 17:52:24 209

原创 Hadoop生态之Yarn资源管理器配置与使用(五)

在hadoop2.0以前版本，资源管理和作业调度都由mapreduce完成，负载过重，性能瓶颈严重，角色不清，从2.0版引入Yarn概念，将这些只能重MR中独立出来分别用ResourceManager和ApplicationMaster进程来负责。Yarn: 提供MapReduce、Spark程序运行，并对集群中各类资源进行管理的容器。hadoop2.X中的Yarn 主要包括Resourc...

2019-05-30 17:43:17 1086

原创 Hadoop生态之HDFS动态扩容(四)

当HDFS现有集群不能够满足业务需求的时候，需要在不影响现有HDFS集群运行的情况下，动态扩容现有HDFS集群。操作步骤：1> 安装一台CentOS Linux服务器2> 修改计算机名称命令：vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop1GATEWAY=192.168.248.13> ...

2019-05-30 16:43:25 958

原创 Hadoop生态之HDFS客户端操作(三)

操作HDFS常用的两种客户端：1.通过自带的shell方式进行操作2.借助Hadoop提供的Java API进行操作一、hadoop shell常用基本操作命令：1> 查看HDFS指定的目录命令：hdfs dfs -ls -R /input2> 创建指定目录命令：hdfs dfs -mkdir /output3> 创建级联目录命令：hdfs d...

2019-05-30 15:40:24 345

原创 hadoop生态之zookeeper安装配置（一）

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper架构图：...

2019-05-24 01:03:54 313

原创 Hadoop生态之HDFS安装配置(二)

HDFS：分布式文件存储系统，是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。HDFS是Hadoop中的三大重要组件之一，...

2019-05-23 12:01:53 311

原创 Hadoop生态之Hadoop体系架构(一)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个开源框架，可编写和运行分布式应用处理大规模数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。Hadoop起源于谷歌的三篇论文（GFS、MapReduce、BigTable）。名字起源：Hadoop这个名字...

2019-05-23 11:33:56 7048 1

原创 Linux基础之CentOS的Shell编程（三）

一、概述：Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell，Windows Explorer 是一个典型的图形界面 Shell。Shell 编程跟 ...

2019-05-22 11:12:49 489

原创 Linux基础之CentOS常用命令（二）

一、文件目录命令常用命令：1. man 获取帮助信息命令：man 命令名例：man ls2.常用快捷键 1）ctrl + c：停止进程 2）ctrl+l：清屏 3）ctrl + q：退出 4）善于用tab键 5）上下键：查找执行过的命令 6）ctrl +alt：linux和Windows之间切换3. pwd 查看当前目录路径4....

2019-05-22 10:41:36 278

原创 Linux基础之CentOS安装配置（一）

一、概述Linux内核最初是由芬兰人林纳斯.托瓦兹（Linus Torvalds) 在赫尔辛基大学期间出于个人爱好而编写的。Linux是一套免费使用和自由传播的类似于Unix操作系统，是一个基于POSIX和UNIX的多用户，多任务，支持多线程和多CPU的操作系统。Linux能运行主要的Unix工具软件，应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计...

2019-05-22 09:31:02 377

原创 Linux基础之centos安装JDK与tomcat（四）

JDK安装步骤：1.下载JDK安装包到指定的目录下: /usr/local/src/java jdk-8u201-linux-x64.tar.gz2.把安装包复制到 /usr/java目录下: 修改压缩包的权限：chmod 777 jdk-8u201-linux-x64.tar.gz 复制压缩包到: /usr/java目录下: cp jdk-8u2...

2019-05-20 17:01:03 148

原创 Hadoop技术生态之Hive数据仓库一(八)

Hive简介： Hive是基于Hadoop的一个数据仓库管理工具，可以将结构化的数据文件映射为数据库表，提供sql查询统计功能（Hive 定义了简单的类 SQL 查询语言，称为 HQL），其底层实现是：将SQL语句转换为MapRecuce程序任务执行对应的查询功能(Yarn集群启动)。为什么要使用hive？用户只需要在Hive中建立表和结构化数据之...

2019-05-20 16:16:37 2584

原创 Linux基础之CentOs安装mysql数据库（五）

第一种安装方式(离线安装)：1.先将mysql客户端和mysql服务器rpm软件上传到centos服务器 MySQL-client-5.6.25-1.linux_glibc2.5.x86_64.rpm MySQL-server-5.6.25-1.linux_glibc2.5.x86_64.rpm2.检查现在的centos系统中是否已经安装过mysql程序命令：r...

2019-05-20 16:00:52 317

原创 ElasticSearch安装与配置一

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。下面我们来看样它的安装步骤：第一、从官网下载lin...

2019-05-16 13:58:09 789

原创 java爬虫技术—内功修炼之网络爬虫爬取流程（四）

看着下面的小奇和一张张求知若渴的表情，对未知充满了好奇，又想起当年的自己不也是这样吗，长老也是满脸的欣慰，继续开始自己的讲解，下面说说数据爬取的流程。数据爬取主要分四个步骤：爬取对象准备-->页面数据抓取-->数据解析处理-->数据持久存储。爬取对象准备：即数据爬取的入口，也就是我们要爬取的种子URL，把需要爬取的URL统一的放到一个指定的集合中等...

2019-04-13 13:29:33 517 1

原创 java爬虫技术—内功修炼之网络爬虫爬取策略（三）

在小奇及同门经过一段时间的知识消化和休息之后，长老又开始讲解自己的爬虫经验与技巧。接下来主要说一下网络爬虫的爬取策略：深度优先策略：深度优先遍历策略是指网络爬虫从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪，直至结束。如图：深度优先采集规则：先采集A-F-G这条线再采集E-H-I这条线软后再采集 B C D节点。...

2019-04-13 13:01:25 1230

原创 java爬虫技术—内功修炼之网络爬虫概念、作用、分类（二）

次日，小奇早早的到了问道阁，这时已经有一些同时入门的弟子都坐到了各自自定的座位上。传功长老看人员到齐之后开始讲述网络爬虫的基本知识。随着互联网的迅速发展，网络资源越来越丰富，信息需求者如何从网络中抽取信息变得至关重要。目前，有效的获取网络数据资源的重要方式，便是网络爬虫技术。简单的理解，比如您对百度贴吧的一个帖子内容特别感兴趣，而帖子的回复却有1000多页，这时采用逐条复制的方...

2019-04-13 12:33:07 825

原创 Java爬虫技术—入门秘籍之HTTP协议和robtos协议(一)

文章目录：入门秘籍—Http协议与robots协议内功修炼—深入理解网络爬虫概念，作用，原理和爬取方式及流程山中奇遇—得授页面解析技术之Xpath 入驻兵器阁—获取爬虫神器之Jsoup 入驻兵器阁—获取爬虫神器之HttpClient 初出江湖路遇波折—常见反爬虫策略伪装身份破入山门—反爬虫对策之模拟身份代理IP 修炼升级—htmlutil工具抓取ajax动态页面升级进阶...

2019-03-28 16:16:42 522

原创 oracle命令

命令行连接数据库: cmd-->sqlplus-->conn sys/sys as sysdba; (以管理员的身份连接数据库) conn root/root :以普通身份连接数据库oracle创建用户: create user zhangsan(用户名) identified by 123456(密码) account unlock;删除用户:drop user zhan...

2018-11-28 09:37:40 245

原创 linux命令

1.更新系统： sudo apt-get update2.安装ifconfig：sudo apt install net-tools3.查看ip地址：ifconfig 或者 ip addr4.安装ssh服务：sudo apt install openssh-server5.查看ssh服务是否启动：sudo ps -e |grep ssh6.启动ssh服务：sudo servic...

2018-10-18 17:35:20 183

原创 linux学习笔记

无法锁定管理目录(/var/lib/dpkg/)，是否有其他进程正占用它dpkg应用程序被占用错误提示：E: 无法获得锁 /var/lib/dpkg/lock – open (11: 资源暂时不可用)E: 无法锁定管理目录(/var/lib/dpkg/)，是否有其他进程正占用它？解决方案：终端输入 ps -aux ，列出进程,找到含有apt-get的进程，直接sudo kill PID...

2018-10-18 14:03:28 129

原创 python多任务实例1

import timeimport threadingdef sing(): for i in range(5): print("正在唱菊花台。。。。") time.sleep(1)def dance(): for i in range(5): print("正在跳舞。。。") time.sleep(1)...

2018-10-15 21:13:07 222

原创 python socket文件下载

服务器端：import socket#1.创建套接字tcp_server = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#2.绑定本地信息和端口号tcp_server.bind(("",8888))#3.让默认的套接字由主动变为被动liestentcp_server.listen(128)while True: #4....

2018-10-13 22:36:34 1928

原创 python网络编程

server.pyimport socket# AF_INRT-->IPV4 ,SOCK_STREAM-->TCP协议s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#获取服务器名字host = socket.gethostname()#设置端口号port = 8888#定义参数元组addr = (host,...

2018-10-11 16:45:40 144

原创 django rest framework

1.环境准备 1.安装python3.7 2.安装Django ：pip install django 3.pip install djangorestframework 4.pip install markdown 5.pip install django-filter 2.创建django项目 django-admin star...

2018-10-10 17:34:27 155

原创 django+easyui+datagrid

import jsonfrom django.core import serializersfrom .models import UserInfodef findByPage(request): res = '{"total":12,"rows":[{"id":1,"username":"admin","password":"admin","

2018-10-09 23:28:55 1249

原创 pymysql的增删改查工具类

# encoding = utf8import pymysqlclass PymysqlUtil(): #初始化方法 def __init__(self,host,port,user,passwd,dbName,charsets): self.host = host self.port = port self.user = us...

2018-10-07 20:05:08 1713 1

原创 python爬虫技术-beautifulsoup的应用

#encoding UTF-8import urllib.requestimport http.cookiejarurl = "http://www.baidu.com"print('第一种方法')response1 = urllib.request.urlopen(url)print(response1.getcode())print(response1.read())...

2018-09-26 23:40:28 192

原创 python-django 富文本编辑器

创建富文本： 1.添加富文本库：pip install tinymce 2.在setting.py配置文件中添加tinymce应用 INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.auth', 'django.contrib.contenttype...

2018-09-21 17:16:52 2609