- 博客(17)
- 收藏
- 关注
原创 python操作word文档,表格中插入文字及照片
需求:一个excel里面存储着部门员工姓名,一个文件夹存储着各模块子文件夹,再下面存储着员工照片。目标是把员工姓名及入职日期从excel里面提取出来插入word表格,再找到对应照片插入相应位置。......
2022-08-31 20:00:00 2477 1
原创 大数据7、数据仓库开发
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。数据仓库数据库和数据仓库对比数据中心数据平台数据湖引用维基百科的解释:数据湖(英语:Data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统[1] 。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、P
2022-06-10 20:00:00 819
原创 大数据6、Apache Sqoop及ZooKeeper简介
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。What is Sqoop?Sqoop 导入导出的原理剖析从RDB导入数据到HDFS导出数据从HDFS到RDBZooKeeper介绍ZooKeeper典型应用场景ZooKeeper的数据结构...
2022-06-08 20:00:00 308
原创 大数据5、NoSQL综述和Apache HBase基础
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。What is NoSQL?Relational vs. NoSQLWhat Are Tradeoffs from NoSQL?(什么是NoSQL的权衡)CAP Theory(理论)Eventually Consistency(最终的一致性)Key-Value StoresDocument StoresWhat is Apache HBaseApache HBase Use CaseHBase数据的写入过程:HBase Architec
2022-06-06 20:00:00 192
原创 大数据4、Apache Hive基础实战
数据仓库数据仓库解决的问题What is Hive ?Hive 的优势和特点Hive DatabaseHive Tables对Hive表的三联问!!!
2022-06-02 20:00:00 197
原创 大数据3、MapReduce 编程模型基础和实战
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。MapReduce是啥?MapReduce是一种计算模型,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务用于大规模数据处理每个节点处理存储在该节点上的数据每个MapReduce作业都包含两个阶段MapReduce几点解释map阶段就是将原数据(存储在HDFS上的)按照处理的业务逻辑转换为key-value数据格式。reduce阶段,对map阶段处理完的数据进行汇总,然后按照需求进行处理
2022-06-01 22:00:00 539
原创 大数据2、Apache Hadoop 分布式文件系统
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。NameNode:管理文件系统命名空间/元数据/文件块保存文件和数据块之间的映射关系一个文件对应多少个数据块,几乎不会发生变化保存每个 数据块 存储在 哪个 机器列表 DataNode上DataNode (DN):DN存储HDFS上的block文件块,在一个HDFS分布式文件系统里有多个DN存储和处理数据报告给NameNode,HDFS启动时会把DN的数据块汇报给NN在许多机器上运行Secondar
2022-05-27 17:25:19 163
原创 大数据1、大数据概况及Hadoop生态系统
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。大数据特点:体量巨大,种类繁多,价值密度低,处理速度快。另外有两个固有特征:Time-based,时间属性。Immutable,数据真实性不变。数据分析:基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。数据分析的四个步骤:需求分析,明确目标。收据收集,加工处理。数据分析,数据展现。分析报告,提炼价值。 一般大数据工程师工作重点在第二步,第三、四步是数据分析师、数据挖掘工程师的工作
2022-05-27 09:49:20 207
原创 ROC/AUC、精准率、召回率、真正率,假正率等指标含义,学习笔记
1. 混淆矩阵对于二分类模型,预测值与真实值的组合情况,行成了混淆矩阵。第一个字母表示是否预测正确(T/F),第二个表示预测为 P/1 还是 N/0。2. 准确率预测正确的结果占总样本的百分比,准确率=(TP+TN)/(TP+TN+FP+FN)样本不平衡时,该指标失效。3. 精准率Precision,也即查准率,在所有被预测为正的样本中实际为正样本的概率,精准率=TP/(TP+FP)4. 召回率Recall,也即查全率,在实际为正的样本中被预测为正样本的概率,查全率=TP/(TP+FN)
2022-04-14 14:58:41 2108
原创 时序数据插值,对GPS采样数据进行线性插值
此篇为上一篇的接续,对时序数据进行插值上篇文章 解析kml文件,提取经纬度信息存入csv将kml里面的信息提取了出来,但是有些数据间隔太大,甚至几十秒才一个采样点,需求对这样的数据进行插值,形成每秒一个采样点的数据,代码较简单,主要应用了scipy库的 interpolate 方法,希望对有同样需求的小伙伴有所帮助。import pandas as pdimport osimport timefrom scipy import interpolateFinalPath = './final/
2022-03-05 08:15:00 1480 10
原创 解析kml文件,提取经纬度信息存入csv
解析kml文件解析kml文件,读取出经纬度和时间信息,对应好,存入一个csv文件。代码较简单,根据不同需求,稍加修改即可。里面有几个坑,kml里面Document目标下,如果有除id=…字样外的其他字符,可能提取不到目标,需要删除之。另外,提取关键词,如果含有符号,也会报错,需要提前把关键词里的符号处理下。还有就是提取出的时间信息,需要把前面的一些打卡点的时间信息去掉,然后才能和每一个经纬度坐标信息对应上,即数量上对等。代码应该还有可以优化的地方,暂没时间弄了,欢迎大家指正。希望对有同样需求的小伙伴
2022-03-04 13:11:59 3378 2
原创 PCA代码实现
python手动实现import numpy as npdef pca(X,k):#k is the components you want #mean of each feature n_samples, n_features = X.shape mean=np.array([np.mean(X[:,i]) for i in range(n_features)]) #normalization norm_X=X-mean #scatter matrix scatter_ma
2022-02-12 15:04:24 302
原创 线性回归 逻辑回归 学习笔记 sigmoid softmax cross entropy
线性回归最简单的线性回归问题,y=wx+b,模型输出一个值,用L1/L2 loss,即MAE/MSE loss,去做梯度下降。逻辑回归2分类问题,如回归问题一样,网络或者模型同样输出一个值,然后用sigmoid给它拉到0~1,然后用binary cross entropy loss去做梯度下降。binary cross entropy = -np.mean ( y * log y_hat + (1-y) * log(1-y_hat) ) 。如果多分类问题,模型输出n纬
2021-12-29 22:49:33 327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人