- 博客(9)
- 收藏
- 关注
原创 ELMO
https://www.jianshu.com/p/6b781719d8e6https://www.cnblogs.com/jiangxinyang/p/10060887.html
2019-11-28 17:59:02 200
原创 第三章 大数据学习之HDFS
第三章 分布式文件系统HDFS目标: 兼容廉价的硬件设备 流数据读写 支持大数据集 简单的文件模型 强大的跨平台兼容性局限性: 不适合低延迟数据访问 无法高效存储大量小文件 不支持多用户写入及任意修改文件块:默认大小64MB 名称节点(NameNode) DataNode 存储元数据 存储文件内容 元数据保存在内存中 文件内容...
2018-04-18 16:42:54 219
原创 第一章 大数据学习之大数据概述
大数据4个特性:大量化(数据量大)、多样化(数据类型多)、快速化(处理速度快)、价值化(价值密度低)科学研究4种范式:实验、理论、计算、数据大数据对人类思维方式影响: (1)全样而非抽样 (2)效率而非精确 (3)相关而非因果大数据关键技术两大核心: 分布式存储 :GFS/HDFS、Big Table、Hbase、NoSQL(键值、列族、图形、文档数据库)、NewSQL(SQL...
2018-03-23 12:04:32 1299
原创 LM神经网络模型代码
#-*- coding: utf-8 -*-import pandas as pdfrom random import shuffledatafile = 'F:/python学习/chapter6/test/data/model.xls'data = pd.read_excel(datafile)data = data.as_matrix()shuffle(data)p = ...
2018-03-06 10:11:38 4807 1
原创 CATR决策树模型代码
#-*- coding: utf-8 -*-#构建并测试CART决策树模型import pandas as pd #导入数据分析库from random import shuffle #导入随机函数shuffle,用来打算数据datafile = 'F:/python学习/chapter6/test/data/model.xls' #数据名treefile = 'F:/python学...
2018-03-06 10:09:42 2077
转载 海量数据处理:十道面试题与十个海量数据处理方法总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是...
2018-02-28 14:53:44 178
原创 拉格朗日插值
拉格朗日插值基函数: li(x)=(x−x0)...(x−xi−1)(x−xi+1)...(x−xn)(xi−x0)...(xi−xi−1)(xi−xi+1)...(xi−xn) l_i(x) = \dfrac{(x-x_0)...(x-x_{i-1})(x-x_{i+1})...(x-x_n)}{(x_i-x_0)...(x_i-x_{i-1})(x_i-x_{i+1})...(x_i-x_n)
2018-02-28 11:27:22 849
原创 Python 知识点整理
一.from os import makedirs, unlink, sep #从os包中引入 makedirs.unlink,sep类from os.path import dirname, exists, isdir, splitext #从 os包中的path类中引入 dirmame exists 等方法import os #引入整个os包import os as o #为os起别名为...
2018-02-27 16:53:19 251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人