BigData
wiki_hui
初来乍到,请多指教
展开
-
自动化数据采集
目录 数据源 开放数据源 python爬虫过程 日志采集 埋点(面试重点) 比特币预测从哪些维度抓取数据? 数据源 开放数据源:政府、企业、高校 爬虫抓取:网页、APP 日志采集:前端采集、后端脚本 传感器:图像、测速、热敏 开放数据源 单位 数据源 网址 美国人口调查局 提供人口信息、地区分布和教育情况的美国公民信息 http://www.census.gov/data.html 欧..原创 2020-09-09 15:46:11 · 918 阅读 · 0 评论 -
数据分析的一些基本概念
商业智能、数据仓库、数据挖掘 商业智能(Business Intelligence, BI):相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。 数据仓库(Data Warehouse, DW):它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除..原创 2020-09-09 10:38:45 · 204 阅读 · 0 评论 -
NumPy基本命令
import NumPy as np ndarray: 多维数组 np.array persontype = np.dtype({'names: [], 'formats': []}) 自定义 结构数组 np.arrange(1,11,2) 创建[1,3,5,7,9...原创 2020-09-09 09:23:23 · 318 阅读 · 0 评论 -
Pandas的鸡毛蒜皮
数据结构 Series:一维序列,定长字典序列,两个属性: index: 索引 默认是0,1,2... 可指定 index=['a','b'....] values: x1 = Series([1,2,3,4]) DataFrame:二维表结构(类似数据库表) data = { 'Chinese': [66, 95, 93, 90,80], 'English': [65, 85, 92, 88, 90], 'Math': [30, 98, 96, 77, 90] } d..原创 2020-09-09 09:10:15 · 142 阅读 · 0 评论 -
TensorFlow是什么?怎么用?
在开始使用TensorFlow之前,必须了解它背后的理念。该库很大程度上基于计算图的概念,除非了解它们是如何工作的,否则无法理解如何使用该库。本文将简要介绍计算图,并展示如何使用TensorFlow实现简单计算。目录01 计算图02 张量03 创建和运行计算图04 包含tf.constantd的计算图05 包含tf.Variable的计算图06 包含tf.placeho...原创 2019-11-18 16:58:38 · 412 阅读 · 0 评论 -
Linux-Ubuntu环境下Hadoop的安装(单机模式&伪分布式模式)
基本环境: VMware下挂载Ubuntu16.0jdk1.8 Hadoop3的安装 Hadoop 3可以通过http://mirror.bit.edu.cn/apache/hadoop/common/或http://mirrors.cnnic.cn/apache/hadoop/common/下载,一般选择下载最新的稳定版本,即下载 “stable” 下的had...原创 2019-10-14 21:25:49 · 593 阅读 · 0 评论 -
Docker在windows 10安装教程
目录Docker是啥?为什么使用Docker?镜像(Image)、容器(Container)、仓库(Repossitory)?安装官网下载安装:Docker ToolBox运行hello-world我安装后出现的一个小问题 Docker是啥? 说的通俗一点,Docker就是类似虚拟机的一个容器,它的基础是Linux (LXC)等技术。 为什么使用Doc...原创 2019-03-09 23:51:55 · 323 阅读 · 0 评论