win10定时任务报错 win10定时任务报错:操作员或系统管理员拒绝了请求解决办法:打开“控制面板->管理工具->本地安全策略”,选择“安全设置->本地策略->安全选项”,在右边列表中找到“域控制器:允许服务器操作者计划任务”,将状态改为“已启用”。解决windows任务启动失败问题(101,错误值: 2147943730)1.用户无权限,需授予权限windows– >本地安全策略 – >本地策略 – >用户权限分配 – >作为批处理作业login-添加当前用户(需要确认是
ab实验 1. 简介1.1 定义在工作和互联网大厂中经常被用来验证一个功能最终是否会被上线的重要手段1.2 原理来源于假设检验比如,现在有两个同质的样本组,对其中一个组做出某种改动观测这个改动对于我们关注的核心指标是否有显著的影响这个实验中原假设就是这项改动并不会对我们所关注的核心指标有显著的影响如果做完这个实验后发现p值足够小,则推翻原假设,证明这项改动会对多关注的核心指标产生显著影响1.3 本质同质样本组的对照实验2. 辛普森悖论2.1 定义在某种条件下所关注的两组数据分别
欠拟合和过拟合 1. 简介1.1 定义以线性回归为例不划分数据集一阶线性方程import numpy as npimport matplotlib.pyplot as plt# 设置随机种子,使得随机的数都一样(可以不设)np.random.seed(666)# 1. 获取特征值x = np.random.uniform(-3, 3, size = 100)x# 2. 获取目标值# 定义表达式, 加了扰动,# normal:表示正态分布上的点y = 0.5 * x**2 + x
Pandas高级处理 1. 缺失值1.1 简介1.2 处理1. 判断是否包含NaN判断数据中是否包含NaN:pd.isnull(df)pd.notnull(df)获取缺失值的标记方式(NaN或者其他标记方式)2. 如果缺失值的标记方式是NaN存在缺失值nan:1、删除存在缺失值的:dropna(axis=‘rows’)注:不会修改原数据,需要接受返回值2、替换缺失值:fillna(value, inplace=True)value:替换成的值inplace:True:会修改原数
Spark SQL 1. Spark SQL1.1 定义Spark SQL是Spark中用于处理结构化数据的一个模块1.2 特性可以在Spark程序中无缝加入SQL查询使用相同的方式连接不同的数据源在已有的数据仓库中执行SQL或者 HiveQL 查询提供了 JDBC or ODBC的数据接口1.3 优势写更少的代码(Write Less Code)性能更高2. DataFrame2.1 定义DataFrame是一个分布式的行集合一旦RDD、DataFrame被创建,就不能更改只有ac
Spark Core 1. 简介1.1 定义专为大规模数据处理而设计的快速通用计算引擎与Hadoop的 MapReduce功能类似MapReduce V.S. Sparkspark快Spark框架组件丰富spark特点1、速度快(比mapreduce在内存中快100倍,在磁盘中快10倍)2、易用性(可以通过java/scala/python/R开发spark应用程序)3、通用性(可以使用spark sql/spark streaming/mlib/Graphx)4、兼容性(spark程序可以运行在s
HBase 1. 简介1.1 定义HBase是一个分布式的、面向列的开源数据库同样数据保存到列式数据库中RowKeyFILE INFOSAVE INFO1name:file1.txt type:txt size:1024path:/home/pics creator:Jerry2name:file2.jpg type:jpg size:5032path:/home creator:Tom非结构化数据存储结构化数据适合用二维表来展示的数据非结构化数据
Hive 1 特征筛选1 单特征分析什么是好特征?从几个角度衡量:覆盖度,区分度,相关性,稳定性覆盖度 采集类,授权类,第三方数据在使用前都会分析覆盖度覆盖度可以衍生两个指标:缺失率,零值率缺失率:一般就是指在全体有标签用户上的覆盖度零值率:很多信贷类数据在数据缺失时会补零,所以需要统计零值率区分度:是评估一个特征对好坏用户的区分性能的指标可以把单特征当做模型,使用AUC, KS来评估特征区分度在信贷领域,常用Information Value (IV)来评估单特征的区分度IV &
Hadoop 1. 简介1.1 定义Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算和存储框架1.2 应用场景搭建大型数据仓库PB级数据的存储 处理 分析 统计等业务起源于谷歌的三篇论文1.3 核心组件Hadoop Common: 协调其它Hadoop组件的通用工具Hadoop Distributed File System (HDFS™)多块多副本存储数据数据切分、多副本、容错等操作对用户是透明的Hadoop Map
特征筛选 1. 特征筛选单特征分析覆盖度区分度稳定性多特征筛选星座BorutaVIFRFEL1业务内部特征的监控前端稳定性后端区分度外部特征的评估评分型数据名单型数据保护隐私未来信息1.1 单特征分析1. 简介好特征可以从几个角度衡量:覆盖度,区分度,相关性,稳定性2. 分析角度2.1 覆盖度采集类,授权类,第三方数据在使用前都会分析覆盖度采集类 :如APP list (Android 手机 90%)授权类:如爬虫数据(20% 30
特征构造 1. 风控建模流程1.1 评分卡贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户1.2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特
风控建模 1 风控建模流程1 评分卡简介贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特征评估
排序算法 1. 简介1.1 常用术语时间复杂度:程序执行时间与数据输入规模的关系空间复杂度:程序存储空间与数据输入规模的关系稳定性:稳定:一组数据中,a在b前面并且a = b,排序后依旧a 依旧在b前面不稳定:一组数据中,a在b前面并且a=b,排序后a可能在b后面1.2 十大排序算法冒泡,插入,选择归并,快速桶排序,计数排序,基数排序堆排序,希尔排序Time排序:插入排序 + 归并排序1.3 面试考察点分析某个具体的排序算法(Time, Space, 稳定性)对比某几个排
Web技术解决方案 Web技术解决方案1. 对象存储解决方案2. 搜索解决方案3. 异步任务解决方案4. 定时任务解决方案5. 短信解决方案6. 缓存解决方案7. 即时通讯解决方案8. 认证解决方案9. 数据库集群解决方案10. 分布式ID解决方案11. 负载均衡解决方案12.页面静态化解决方案13. 消息队列解决方案14. 第三方登录解决方案15. 支付解决方案16.分布式存储解决方案17. 秒杀解决方案...
Jupyter Notebook 1. 简介一个ipython的web加强版1.1 定义Jupyter项目是一个非盈利的开源项目,源于2014年的ipython项目,因为它逐渐发展为支持跨所有编程语言的交互式数据科学和科学计算Jupyter Notebook,原名IPython Notbook,是IPython的加强网页版,一个开源Web应用程序名字源自Julia、Python 和 R(数据科学的三种开源语言)是一款程序员和科学工作者的编程/文档/笔记/展示软件.ipynb文件格式是用于计算型叙述的JSON文档格式的正式规范