思普大数据技术
文章平均质量分 84
ansap
专注于企业应用软件开发,经验丰富,能够独立完成项目开发!
展开
-
java爬虫技术—内功修炼之网络爬虫爬取流程(四)
看着下面的小奇和一张张求知若渴的表情,对未知充满了好奇,又想起当年的自己不也是这样吗,长老也是满脸的欣慰,继续开始自己的讲解,下面说说数据爬取的流程。 数据爬取主要分四个步骤:爬取对象准备-->页面数据抓取-->数据解析处理-->数据持久存储。 爬取对象准备:即数据爬取的入口,也就是我们要爬取的种子URL,把需要爬取的URL统一的放到一个指定的集合中等...原创 2019-04-13 13:29:33 · 459 阅读 · 1 评论 -
Linux基础之CentOs安装mysql数据库(五)
第一种安装方式(离线安装):1.先将mysql客户端和mysql服务器rpm软件上传到centos服务器 MySQL-client-5.6.25-1.linux_glibc2.5.x86_64.rpm MySQL-server-5.6.25-1.linux_glibc2.5.x86_64.rpm2.检查现在的centos系统中是否已经安装过mysql程序 命令:r...原创 2019-05-20 16:00:52 · 284 阅读 · 0 评论 -
Hadoop技术生态之Hive数据仓库一(八)
Hive简介: Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为数据库表,提供sql查询统计功能(Hive 定义了简单的类 SQL 查询语言,称为 HQL),其底层实现是:将SQL语句转换为MapRecuce程序任务执行对应的查询功能(Yarn集群启动)。为什么要使用hive? 用户只需要在Hive中建立表和结构化数据之...原创 2019-05-20 16:16:37 · 2552 阅读 · 0 评论 -
Linux基础之centos安装JDK与tomcat(四)
JDK安装步骤:1.下载JDK安装包到指定的目录下: /usr/local/src/java jdk-8u201-linux-x64.tar.gz2.把安装包复制到 /usr/java目录下: 修改压缩包的权限:chmod 777 jdk-8u201-linux-x64.tar.gz 复制压缩包到: /usr/java目录下: cp jdk-8u2...原创 2019-05-20 17:01:03 · 127 阅读 · 0 评论 -
ElasticSearch安装与配置一
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 下面我们来看样它的安装步骤: 第一、从官网下载lin...原创 2019-05-16 13:58:09 · 769 阅读 · 0 评论 -
Linux基础之CentOS安装配置(一)
一、概述Linux内核最初是由芬兰人林纳斯.托瓦兹(Linus Torvalds) 在赫尔辛基大学期间出于个人爱好而编写的。Linux是一套免费使用和自由传播的类似于Unix操作系统,是一个基于POSIX和UNIX的多用户,多任务,支持多线程和多CPU的操作系统。Linux能运行主要的Unix工具软件,应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计...原创 2019-05-22 09:31:02 · 344 阅读 · 0 评论 -
Linux基础之CentOS常用命令(二)
一、文件目录命令常用命令:1. man 获取帮助信息命令:man 命令名 例:man ls2.常用快捷键 1)ctrl + c:停止进程 2)ctrl+l:清屏 3)ctrl + q:退出 4)善于用tab键 5)上下键:查找执行过的命令 6)ctrl +alt:linux和Windows之间切换3. pwd 查看当前目录路径4....原创 2019-05-22 10:41:36 · 255 阅读 · 0 评论 -
Linux基础之CentOS的Shell编程(三)
一、概述:Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。Shell 编程跟 ...原创 2019-05-22 11:12:49 · 452 阅读 · 0 评论 -
Hadoop生态之Hadoop体系架构(一)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。Hadoop起源于谷歌的三篇论文(GFS、MapReduce、BigTable)。名字起源:Hadoop这个名字...原创 2019-05-23 11:33:56 · 6888 阅读 · 1 评论 -
Hadoop生态之HDFS安装配置(二)
HDFS:分布式文件存储系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。HDFS是Hadoop中的三大重要组件之一,...原创 2019-05-23 12:01:53 · 281 阅读 · 0 评论 -
Hadoop生态之HDFS客户端操作(三)
操作HDFS常用的两种客户端:1.通过自带的shell方式进行操作2.借助Hadoop提供的Java API进行操作一、hadoop shell常用基本操作命令:1> 查看HDFS指定的目录命令:hdfs dfs -ls -R /input2> 创建指定目录命令:hdfs dfs -mkdir /output3> 创建级联目录命令:hdfs d...原创 2019-05-30 15:40:24 · 316 阅读 · 0 评论 -
Hadoop生态之HDFS动态扩容(四)
当HDFS现有集群不能够满足业务需求的时候,需要在不影响现有HDFS集群运行的情况下,动态扩容现有HDFS集群。操作步骤:1> 安装一台CentOS Linux服务器2> 修改计算机名称命令:vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop1GATEWAY=192.168.248.13> ...原创 2019-05-30 16:43:25 · 923 阅读 · 0 评论 -
Hadoop生态之Yarn资源管理器配置与使用(五)
在hadoop2.0以前版本,资源管理和作业调度都由mapreduce完成,负载过重,性能瓶颈严重,角色不清,从2.0版引入Yarn概念,将这些只能重MR中独立出来分别用ResourceManager和ApplicationMaster进程来负责。Yarn: 提供MapReduce、Spark程序运行,并对集群中各类资源进行管理的容器。hadoop2.X中的Yarn 主要包括Resourc...原创 2019-05-30 17:43:17 · 991 阅读 · 0 评论 -
Hadoop生态之MapReduce工作机制(六)
MapReduce是Hadoop提供的分布式并行计算框架,用户不用关心如何编写实现分布式并行计算代码,只需在Mapper 和Reducer 里实现自己业务逻辑就可以了。简化了编写分布式程序的复杂度。Hadoop中的mapreduce计算模型也是基于分布式计算原型的,是分布式计算的一种实现。Hadoop提供了mapreduce框架的底层实现,负责完成mapreduce程序分发到各个nodeMan...原创 2019-05-30 17:52:24 · 190 阅读 · 0 评论 -
hadoop生态之zookeeper安装配置(一)
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper架构图:...原创 2019-05-24 01:03:54 · 275 阅读 · 0 评论 -
java爬虫技术—内功修炼之网络爬虫爬取策略(三)
在小奇及同门经过一段时间的知识消化和休息之后,长老又开始讲解自己的爬虫经验与技巧。 接下来主要说一下网络爬虫的爬取策略: 深度优先策略:深度优先遍历策略是指网络爬虫从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪,直至结束。如图:深度优先采集规则: 先采集A-F-G这条线 再采集E-H-I这条线 软后再采集 B C D节点。...原创 2019-04-13 13:01:25 · 1175 阅读 · 0 评论 -
java爬虫技术—内功修炼之网络爬虫概念、作用、分类(二)
次日,小奇早早的到了问道阁,这时已经有一些同时入门的弟子都坐到了各自自定的座位上。传功长老看人员到齐之后开始讲述网络爬虫的基本知识。 随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方...原创 2019-04-13 12:33:07 · 785 阅读 · 0 评论 -
Java爬虫技术—入门秘籍之HTTP协议和robtos协议(一)
文章目录:入门秘籍—Http协议与robots协议 内功修炼—深入理解网络爬虫概念,作用,原理和爬取方式及流程 山中奇遇—得授页面解析技术之Xpath 入驻兵器阁—获取爬虫神器之Jsoup 入驻兵器阁—获取爬虫神器之HttpClient 初出江湖路遇波折—常见反爬虫策略 伪装身份破入山门—反爬虫对策之模拟身份代理IP 修炼升级—htmlutil工具抓取ajax动态页面 升级进阶...原创 2019-03-28 16:16:42 · 480 阅读 · 0 评论 -
maven的安装与配置
maven的安装与配置 maven可以翻译为“专家”或“内行”的意思,是Apache组织中的一个成功的开源项目,maven主要用于基于java平台的项目构建、依赖管理和项目信息管理。下面将介绍配置和如何安装Maven这一跨平台的项目管理工具的安装和配置。 一、开发工具 windows7操作系统,JDK,maven 工具的下载: maven: ...原创 2018-03-21 14:19:36 · 216 阅读 · 0 评论 -
python学习笔记
创建django项目命令:django-admin startproject project创建django项目应用命令:django-admin startapp myApp查看盘符下面的树形菜单结构:tree . /D配置数据库: 1.在__init__.py文件中引入mysql代码: import pymysql pymysql.install...原创 2018-09-17 22:12:12 · 157 阅读 · 0 评论 -
python-django文件上传和分页功能笔记
文件上传: 1.配置路径 文件上传时,文件数据存储在request.FILES属性中 一般文件都存储到服务器的static目录下的upfile文件夹下 在setting.py文件中配置路径: #静态文件目录 STATICFILES_DIRS=[ os.path...原创 2018-09-18 23:22:51 · 268 阅读 · 0 评论 -
自己动手写cookie保存用户名密码
(function() { window.Ansap = {}; window.Ansap.cookie = { /** * 添加cookie * * @param name * -cookie名 * @param value * ...原创 2018-09-19 13:06:46 · 402 阅读 · 0 评论 -
python网络编程
server.pyimport socket# AF_INRT-->IPV4 ,SOCK_STREAM-->TCP协议s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#获取服务器名字host = socket.gethostname()#设置端口号port = 8888#定义参数元组addr = (host,...原创 2018-10-11 16:45:40 · 125 阅读 · 0 评论 -
python爬虫技术-beautifulsoup的应用
#encoding UTF-8import urllib.requestimport http.cookiejarurl = "http://www.baidu.com"print('第一种方法')response1 = urllib.request.urlopen(url)print(response1.getcode())print(response1.read())...原创 2018-09-26 23:40:28 · 159 阅读 · 0 评论 -
python-django中的ajax请求
在视图文件中定义: from django.http import JsonResponse from .models import Students def userList(request): stuList = Students.objects.all() list = [] fo...原创 2018-09-21 17:15:56 · 820 阅读 · 0 评论 -
python-django 富文本编辑器
创建富文本: 1.添加富文本库:pip install tinymce 2.在setting.py配置文件中添加tinymce应用 INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.auth', 'django.contrib.contenttype...原创 2018-09-21 17:16:52 · 2555 阅读 · 0 评论 -
python socket文件下载
服务器端:import socket#1.创建套接字tcp_server = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#2.绑定本地信息和端口号tcp_server.bind(("",8888))#3.让默认的套接字由主动变为被动liestentcp_server.listen(128)while True: #4....原创 2018-10-13 22:36:34 · 1820 阅读 · 0 评论 -
pymysql的增删改查工具类
# encoding = utf8import pymysqlclass PymysqlUtil(): #初始化方法 def __init__(self,host,port,user,passwd,dbName,charsets): self.host = host self.port = port self.user = us...原创 2018-10-07 20:05:08 · 1670 阅读 · 1 评论 -
linux学习笔记
无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它dpkg应用程序被占用错误提示:E: 无法获得锁 /var/lib/dpkg/lock – open (11: 资源暂时不可用)E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它?解决方案:终端输入 ps -aux ,列出进程,找到含有apt-get的进程,直接sudo kill PID...原创 2018-10-18 14:03:28 · 112 阅读 · 0 评论 -
linux命令
1.更新系统: sudo apt-get update2.安装ifconfig:sudo apt install net-tools3.查看ip地址:ifconfig 或者 ip addr4.安装ssh服务:sudo apt install openssh-server5.查看ssh服务是否启动:sudo ps -e |grep ssh6.启动ssh服务:sudo servic...原创 2018-10-18 17:35:20 · 158 阅读 · 0 评论 -
python多任务实例1
import timeimport threadingdef sing(): for i in range(5): print("正在唱 菊花台。。。。") time.sleep(1)def dance(): for i in range(5): print("正在跳舞。。。") time.sleep(1)...原创 2018-10-15 21:13:07 · 200 阅读 · 0 评论 -
django+easyui+datagrid
import jsonfrom django.core import serializersfrom .models import UserInfodef findByPage(request): res = '{"total":12,"rows":[{"id":1,"username":"admin","password":"admin","原创 2018-10-09 23:28:55 · 1218 阅读 · 0 评论 -
oracle命令
命令行连接数据库: cmd-->sqlplus-->conn sys/sys as sysdba; (以管理员的身份连接数据库) conn root/root :以普通身份连接数据库oracle创建用户: create user zhangsan(用户名) identified by 123456(密码) account unlock;删除用户:drop user zhan...原创 2018-11-28 09:37:40 · 216 阅读 · 0 评论 -
Hadoop技术生态之Hive数据仓库二(九)
Hive数据仓库基于shell命令行基本操作(DDL/DML):首先启动hive数据库仓库的shell脚本模式:命令:/opt/mysoft/hive/bin/hive1> 查看当前Hive中有哪些数据库 hive初始化后,会生成一个默认的default数据库;往往根据项目不同,会建立不同业务的hive数据库; 命令:show databases;2&g...原创 2019-06-03 17:29:11 · 212 阅读 · 0 评论