大数据
芝麻鱼
这个作者很懒,什么都没留下…
展开
-
大数据丨网络爬虫技术总结
对于大数据行业,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,对于中小微公司,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择,本文主要从爬虫原理、架构、分类以及反爬虫技术来对爬虫技术进行了总结。1、爬虫技术概述网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站转载 2017-01-10 17:01:38 · 8754 阅读 · 0 评论 -
美团推荐算法实践
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短转载 2017-01-10 17:08:57 · 372 阅读 · 0 评论 -
基于hadoop2.6.0搭建5个节点的分布式集群
1、前言我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群2、规划1、主机规划 hadoop1/ 192.168.56.131hadoop2/ 192.168.56.132hadoop3/ 192.168.56.133转载 2017-01-10 17:26:01 · 412 阅读 · 0 评论 -
算法&模型
在行业设备大数据平台建设中,势必要用到大数据技术,而大数据技术中,机器学习与数据挖掘算法是重要的一环,我们通过这些算法与模型对设备的故障进行监控与预测,对设备技改需求进行预测,对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。 在进行数据挖掘时,首先要进行商业理解,即我们需要达到什么目的,解决什么问题;其次需要进行数据理解,我们需要哪些数据以转载 2017-01-10 17:35:17 · 599 阅读 · 0 评论 -
开启Hadoop2.6.0出现ssh无法解析主机名等错误提示的解决办法!
开启Hadoop2.6.0出现ssh无法解析主机名等错误提示的解决办法!问题描述:开启Hadoop时,出现如下信息:[root@hd-m1 /]# ./hadoop/hadoop-2.6.0/sbin/start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-转载 2017-01-10 21:53:36 · 597 阅读 · 0 评论 -
MySQL】恢复误操作的方法
【MySQL】恢复误操作的方法 一 前言 本周接二连三的出现开发人员在测试环境和生产误操作导致数据库误删除/更新,对DBA而言,回滚数据着实是一件头疼的事情,凡涉及到恢复线上数据必然对应用带来一定的影响。大多数情况是开发误操作delete数据,update多数行,根据之前的操作经验,本文介绍常用的恢复方法。 写本文的时候 Monogdb 也被曝出有被利用安全转载 2017-01-11 14:34:37 · 1267 阅读 · 0 评论 -
CentOS 6.5 安装Nginx1.7.8
我用的安装参数 ./configure --prefix=/usr/local/nginx--with-http_ssl_module --with-http_spdy_module --with-http_stub_status_module--with-pcre --with-http_gzip_static_module--------------------------------转载 2017-02-08 15:56:23 · 403 阅读 · 0 评论 -
大数据学习路线
1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备转载 2017-02-08 15:59:52 · 531 阅读 · 0 评论