data大柳-CSDN博客

原创推荐：绝对是最好用的公式编辑器

我们在写文章的时候，常常苦恼于各种公式的编写，特别是当涉及公式特别多的时候，编写公式的工作耗时又耗力，往往有时候还需要花很多时间去审查有无错误，今天我提供一个方法，是经过本人检验且使用了好几天的方法，可以让我们编写数学公式如行云流水，极大地省时又省力

2021-01-29 11:31:57 7313 2

监督学习的应用主要为分类问题和回归问题。分类问题分类问题是监督学习的核心问题，在监督学习中，当输出变量 f(x) 取有限个离散值时，预测问题就成为了分类问题。这事，输入变量 x 可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器，分类器对新的输入进行输出的预测，称为分类。可能的输出称为类别。分类的类别为两个时，称为二类分类问题，分类的类别为多个时，称为多类分类问题。分类问题包括学习（训练）和分类（预测）两个过程。在学习过程中，根据已知的训练数据利用有效的学习

2021-01-27 21:08:16 1167

原创项目复盘的完整步骤和高效方法

复盘是回顾、反思、探究、提升的四个过程，回顾、反思、探究是过程，提升是结果。复盘不仅仅是总结，总结只是对某一时间某一件事情的阐述和总结，而复盘在总结的基础上有了更深层次的理解，它是对某事情、项目等的重新回放，梳理做的好的和不好的，积累经验和吸取教训。一个完整的复盘包括如下四个步骤：回归目标、评估结果、分析原因、总结规律。

2021-01-26 16:23:49 12218

原创机器学习复盘（3）：完整的机器学习流程、建模步骤

要使用机器学习，首先得先了解机器学习基本流程，对于机器学习的第一步，很多教材或者帖子都是从收集数据开始。从始机器学习多年了，真实的机器学习项目也做了很多，机器学习的实际应用中，我认为机器学习的第一步应该是理解业务和定义业务。这里我比较推崇CRISP-DM，全称是Cross-Industry Standard Process For Data Mining，即“跨行业数据挖掘标准流程”。机器学习只是一项技术，应用到实际问题中来必然脱离不了所依托的背景知识或者业务逻辑，比如诈骗用户识别、商品的智能推荐、人脸识别

2021-01-25 21:49:34 2442

原创机器学习复盘（2）：机器学习主要应用场景及典型案例

人工智能（AI）和机器学习（ML）正在成为主流，有越来越多的企业正在利用这种模仿人类思维的技术来吸引客户并加强业务运营。而这种趋势只会越来越受欢迎。什么时候需要机器学习机器学习的出现主要是为了解决一些超出人类能力的任务。有些任务人工计算或者直接编码较为复杂。面对庞大且复杂的数据集的分析，比如天文数据，气象预报，基因组数据分析，网络搜索引擎和电子商务等。特别是互联网时代，随着数据的爆炸式在增长，隐含在数据里的有意义、有价值的信息过于庞大复杂，面对越来越庞大的数字金矿，从中获取信息已经远远超出了人类的理解能

2021-01-25 16:43:15 2340

原创 python绘制雷达图（详细）

雷达图介绍雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图，蜘蛛图，星图，蜘蛛网图，不规则多边形，极坐标图或Kiviat图。它相当于平行坐标图，轴径向排列。【搜狗百科】雷达图通常用于综合分析多个指标，具有完整，清晰和直观的优点。下面用实现用python制作雷达图的方法和过程：雷达图制作定义标准化函数from numpy import arrayfrom sklearn import prep

2021-01-23 18:41:21 28532 11

原创机器学习复盘（1）：机器学习分类总览

机器学习任务的类别是非常丰富的，为了对机器学习有个全面的认识，下面从多个维度对机器学习的类别进行梳理：1、从学习目标的角度机器学习可以大致分为回归、分类、排序、有结构预测等类别。这些类别的主要差别在于机器学习模型输出的格式，以及如何衡量输出的准确程度。回归问题。模型的输出值一般是一个连续的标量，人民通常用模型输出与真实值之间的最小平方误差来衡量模型的准确程度。分类问题。模型的输出一般是一个或者多个类别标签，人们通常使用0-1误差及损失函数（如交叉熵、Hinge函数、指数函数等）来衡量模型的准确程度

2021-01-22 21:27:16 1488

原创 python决策树及规则解析（真实案例完整流程）

上一篇博文用随机森林实现了发欺诈模型的构建，但随机森林隶属于集成学习的一种，属于黑箱算法，为了增强模型的解释性，本篇博文采用同样的数据适用决策树算法再次构建模型，并输出可视化二叉树形图以及规则文本，并对决策树输出规则文本进行解析，形成sql语句。这样的话决策树每个分支下的客户群规则画像就变得一目了然，并可以使用解析后的sql语句直接运行在数据库。具体的数据加载、数据清洗及预处理、特征工程、数据抽样及拆分等过程见博主上一篇博文：python随机森林算法实现反欺诈案例完整建模流程……（续）接上一篇博文模

2021-01-22 18:39:15 5271 5

原创 python随机森林实现反欺诈案例（真实案例完整流程）

近年来，国内的电信诈骗案件呈愈演愈烈之势，本文以某省电信公司简化版本的防诈骗模型为案例，利用python机器学习工具，使用随机森林算法，从数据处理、特征工程、到反诈骗模型的模型的构建及评估等完整流程进行一个简单的记录和介绍。流程图环境设置、模块加载# coding: utf-8import osimport numpy as npimport pandas as pdfrom sklearn.ensemble import IsolationForestfrom sklearn.model

2021-01-22 15:48:59 5065 16

原创深入浅出分布式（超详细）

近年来，随着机器学习的作用越来越大，开始在各行各业中扮演着重要的角色，然而，当机器学习算法在实际应用和生产中落地时，将无法避免海量的训练数据、问题复杂程度高等诸多挑战。往往我们的应对措施是使用更复杂的机器学习模型，并且还要动用分布式计算机集群来完成数据处理、模型训练等任务。分布式机器学习解决的就是如何使用计算机集群来训练大规模机器学习模型。那么如何理解分布式以及分布式机器学习呢？一、大数据与大模型的挑战互联网发展迅速，我们进入了前所未有的大数据时代，在大数据浪潮的强力推动下，有标签训练数据的规模取得了爆

2021-01-20 19:56:28 2361

原创一文搞懂计算机字符集编码

编码字符是各种文字和符号的总称，包括各个国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集有：ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。1、ASCII字符集编码ASCII(American Standard Code for Information Interchang

2021-01-18 16:21:29 1096

原创 spark的python环境及No module问题（超详细）

Spark集群与python的结合从上一篇文章我们知道，spark有几种资源管理方式，具体可参考：spark几种集群管理器总结如果Spark Application运行在yarn集群上，在这种运行模式下，资源的管理与协调会统一由yarn处理，而这种模式就能够实现基于yarn集群运算的Application的多样性，可以支持运行MapReduc程序、HBase集群、Storm集群，还可以运行使用Python开发的机器学习应用程序，等等。我们知道，Spark on YARN又分为client模式和clus

2021-01-07 16:54:57 3663 1

原创 spark几种集群管理器总结（超详细）

介绍当前支持三种集群管理器：Spark独立集群管理器（Standalone），一种简单的Spark集群管理器，很容易建立集群，基于Spark自己的Master-Worker集群Apache Mesos，一种能够运行Haoop MapReduce和服务应用的集群管理器Hadoop YARN，Spark可以和Hadoop集成，利用Yarn进行资源调度如果在集群中仅有Spark程序，那么可以使用Spark独立的集群管理器。如果有其他的mapreduce程序，那么需要使用Yarn或者Mesos管理器。

2021-01-07 13:52:01 3654 1

原创 hdfs基本操作命令（完整）

查看文件常用命令命令格式hdfs dfs -ls path #查看文件列表 hdfs dfs -ls -R path #递归查看文件列表 hdfs dfs -du path #查看path下的磁盘情况，单位字节使用示例hdfs dfs -ls / #查询/目录下的所有文件和文件夹hdfs dfs -ls -R /test #以递归的方式查询/test目录下的所有文件创建文件夹命令格式hdfs dfs -mkdir path使用用例hdfs dfs -mk

2021-01-06 19:05:50 9018

原创搞懂spark-submit参数及应用程序提交（详细）

介绍当前支持三种集群管理器： Spark独立集群管理器，一种简单的Spark集群管理器，很容易建立集群，基于Spark自己的Master-Worker集群 Apache Mesos，一种能够运行Haoop MapReduce和服务应用的集群管理器 Hadoop YARN，Spark可以和Hadoop集成，利用Yarn进行资源调度如果在集群中仅有Spark程序，那么可以使用Spark独立的集群管理器。如果有其他的mapreduce程序，那么需要使用Yarn或者Mesos管理

2020-12-31 15:54:55 12573 2

原创一文搞懂spark基本架构及原理（超详细）

Spark的资源管理架构首先介绍一下Spark的资源管理架构。Spark集群考虑到了未来对接一些更强大的资源管理系统（如Yarn、Mesos等），没有在资源管理的设计上对外封闭，所以Spark架构设计时将资源管理抽象出了一层，通过这种抽象能够构建一种插件式的资源管理模块。见上图，Master是Spark的主控节点，在实际的生产环境中会有多个Master，只有一个Master处于active状态。Worker是Spark的工作节点，向Master汇报...

2020-12-30 20:21:00 6343 4

原创多种pyspark模型评估方式（超详细）

在PySpark中包含MLlib和ML两种机器学习的包，二者的主要区别在于MLlib包的操作数据格式是RDD，ML包的操作数据格式是DataFrame。而DataFrame的性能要远远好于RDD，并且MLlib已经不再被维护了，所以本文章主要记录基于ML的模型评估，MLlib不做过多涉及。基于pyspark开发一个分布式机器训练平台，用来做二分类判别，对二分类模型评估方法有很多，具体可看另一博文：模型性能度量，分类算法评价本文记录的是查全率、查准率及AUC等几种评估指标的实现方式，首先对数据进行处理、拆

2020-12-29 19:45:56 5460 4

原创 linux创建虚拟环境（python虚拟环境）

解决问题1：为便于对包进行管理，多个python项目需要使用独立的python环境，这样便于进行包的管理，利用Anaconda来创建一个干净的python虚拟环境解决问题2：在提交代码到yarn模式的时候，会出现诸如类似如下报错。ImportError: No module named numpy第一步：安装Anaconda。系统中首先需要安装的有anaconda，然后才可以使用conda命令，此步骤是为了用conda命令。下载。下载途径可以选择从官网下载，但速度很慢。建议使用清华大学开源软件

2020-12-25 20:34:32 10843 5

原创一篇文章搞懂linux系统目录结构

根目录和家目录介绍Linux目录和Windows目录有着很大的不同，Linux目录类似一个树，最顶层是其根目录，如下图：/ 代表的是根目录，根目录是在最顶端的目录，是树状形式目录的根，只有一个根目录，是所有用户都可以操作的~ 代表是home目录，也就是家目录，家目录用户需要有权限才能操作（管理员可以分配权限），用户登录后在家目录，可用pwd命令查看，普通用户家目录为 /home/用户名，root用户家目录为/root ，家目录是在根目录里面/home 用户主目录的基点，比如用户hadoop的

2020-12-23 14:13:41 1175

原创租户、用户、角色的关系总结

一、用户（user）一个用户就是一个有身份验证信息的API消费实体一个用户可以属于多个租户/项目/组织, 角色二、租户（tenant）租户其实是各个服务中的一些可以访问的资源集合。这些资源集合可供多个用户使用，这也是为什么用户默认的总是绑定到某些租户上用户通过租户访问计算管理资源（这里的计算管理资源可以理解为openstack服务），也就是说必须指定一个相应的租户才可以申请openstack服务各租户相互独立，在当前租户下无法查看其他租户信息很多时候，我们需要有租户的概念，使用租户来分

2020-12-22 21:37:08 20775 1

转载商用数据产品

常规的数据产品分为三种：用户数据产品，商用数据产品和企业数据产品，本篇主要总结商用数据产品。商用数据产品，即由企业或个人开发，提供给外部企业使用的，具备数据采集，计算，存储，展示和分析等功能的产品。随着社会分工更加细化，这类企业在国内外逐渐增多，从最早期的Webtrends，Omiture，到后来的Mixpanel，Amplitude，到这一两年国内名声渐起的 GrowingIO 等等。国外在商用数据产品上的分类上已经做得非常细致，在数据链条的每个环节都有大量企业竞争，导致整个行业分布非常碎片和广泛。而

2020-12-16 16:08:58 423

原创 pyspark中dataframe列数据设置小数点位数

对pyspark中dataframe某些列值保留4位小数，总结两种方法：方法1：data = data.selectExpr('scene_id','user_id','round(PRO_832C001,4) as PRO_832C001','round(PRO_832C002,4) as PRO_832C002','round(PRO_832C003,4) as PRO_832C003','round(PRO_832C004,4) as PRO_832C004');方法2：from pyspa

2020-10-29 11:47:12 5362

原创 pyspark列分割（列数据拆分）

在pyspark里进行新账期数据的预测后，生成预测的结果。见下图：probability 格式为 [0.625,0.365]，但我需要 probability 里预测为1的概率值，所以得处理一下，经过实践，总结两种方法，做个记录。方法1：from pyspark.sql.functions import regexp_replacepredictionsClassifier = predictionsClassifier.withColumn("probability", predictions

2020-10-27 17:37:33 3339

原创 pyspark 遍历

最近遇到一个小问题，我要用pyspark实现数据表的行列遍历，在python里很容易实现，但是用pyspark没实现过，遇到一点小问题，但摸索了一会也实现了，记录如下：描述下表（data1）为某数据大宽表（data2）各列缺失数据的处理方法配置表，其中COLUMN_NAME为数据大宽表的特征名称，NULL_PROCESS_METHON为各特征列缺失数据的处置办法，假设处理方式共有4种：drop、zero、mean、other。需求遍历配置表（data1）的COLUMN_NAME，获取相应的缺失值处

2020-09-17 15:34:38 7447 2

原创 if name == ‘main‘的详细讲解

在 Python 代码中，我们经常会看到if __name__ == '__main__':本文详细总结一下用法。先给出结论，对该语句用法简单的解释就是：如果if __name__ == '__main__' 所在模块是被直接运行的，则该语句下代码块被运行，如果所在模块是被导入到其他的python脚本中运行的，则该语句下代码块不被运行。下边具体的讲解。首先我们得先明白一个概念：程序入口。程序入口对于很多编程语言来说，程序都必须要有一个入口，比如 C，C++，以及完全面向对象的编程语言 Ja

2020-09-15 15:45:57 47811 23

原创超详细：linux知识及常用命令

1 基本操作命令1.1 系统的关机、重启和退出系统关机或者重启需谨慎。日常工作中通常服务器上无时无刻不在运行着服务，很少遇到关机的操作。但重启和关闭系统作为其诸多风险操作中的一例，有时需要关机或者重启。系统重启和关闭之始，会通知所有已登录的用户和进程。如果使用了时间参数，系统将拒绝新的用户登入。使用下列命令执行关机或者重启。shutdown、halt、poweroff、reboot 命令：用来停机、重启或切断电源init 命令：是 “initialization” 的简称systemctl 命

2020-09-09 19:28:49 741 1

原创超详细总结：python的转义字符及用法

什么是转义字符转义字符是一个计算机专业词汇。在计算机当中，我们可以写出123 ，也可以写出字母abcd，但有些字符我们无法手动书写，比如我们需要对字符进行换行处理，但不能写出来换行符，当然我们也看不见换行符。像这种情况，我们需要在字符中使用特殊字符时，就需要用到转义字符，在python里用反斜杠()转义字符。在交互式解释器中，输出的字符串用引号引起来，特殊字符用反斜杠()转义。虽然可能和输入看上去不太一样，但是两个字符串是相等的。在python里，转义字符\可以转义很多字符，比如\n表示换行，\t表示

2020-09-02 17:30:23 108261 12

转载 oracle数据库中生成随机数方法

生成随机数，oracle中采用的是dbms_random.value函数。dbms_random是一个可以生成随机数值或者字符串的程序包。这个包包含以下等几个参数：initialize()seed()terminate()value()normal()random()string()其中value()是最常用的。value()的用法一般有两种：第一种：function value return number:这种用法没有参数，会返回一个具有38位精度的数值，范围从0.0到1.0，

2020-09-01 17:56:39 7077

原创数据库角色、用户、授权总结（详细）

总述每个Oracle用户都有一个名字和口令，并拥有一些由其创建的表、视图和其他资源。Oracle角色（role）就是一组权限（privilege）(或者是每个用户根据其状态和条件所需的访问类型)。用户可以给角色授予或赋予指定的权限，然后将角色赋给相应的用户。一个用户也可以直接给其他用户授权。数据库系统权限（Database System Privilege）：系统权限是指执行特定类型SQL命令的权利，用于控制用户可以执行的一个或一类数据库操作。新建用户没有任何权限。赋予系统权限允许用户执行特定的命令集

2020-09-01 17:01:30 7835

原创数据库几种表删除方式

drop语法：drop table 表名称删除内容和定义，删除的是整个表（结构和数据），将表所占用的空间全释放掉。无法回滚，所以删除是不能恢复的，如果再次使用的话需要新建表。truncatetruncate table 表名称只是清空表，删除内容，释放空间，但不删除定义（保留表的数据结构）。且不会把删除操作记录记入日志保存，无法回滚，所以删除是不能恢复的。并且在删除的过程中不会激活与表有关的删除触发器。执行速度快。deletedelete from 表名称 where 列名称 = 值

2020-09-01 14:13:51 11178

原创配置及执行spark、hadoop遇到的几个报错解决

报错1：问题描述：执行hadoop命令报错WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable mkdir: Permission denied: user=Devops, access=WRITE, inode="/":root:supergroup:drwxr-xr-x解决方案：在文件ha

2020-08-21 16:14:29 1123

原创超详细：大数据框架Spark和Hadoop了解及对比

谈到大数据框架，现在最火的就是Hadoop和Spark，但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，倒底现在业界都在使用哪种技术？二者间究竟有哪些异同？它们各自解决了哪些问题？也总有人会问这两者谁更好的问题，而事实上，在设计之初，Hadoop和Spark是为了实现在同一个团队内的协同运行，而不是非要分出个谁优谁劣。Hadoop与Spark之间，各自有各自的优势和不足，共同运用起来才能更好地完成大数据的处理。一、介绍HadoopHadoop，是分布式管理、存储、计算的生态系统，也

2020-08-18 15:06:42 3137

原创超详细总结：前后端数据交互原理

最近开始接触前后端的一些知识，查了很多资料，今天把互联网产品的前后端数据交互做个总结留做笔记。互联网产品的前后端数据交互是通过一个通讯协议完成。前后台交互的协议主要包括HTTP,FTP,SMTP,TELNET,POP3…本文仅总结HTTP协议。HTTP协议HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议，是一个基于TCP/IP通信协议来传递数据，也是互联网上应用

2020-08-14 17:40:08 22937 7

金庸武侠小说文本分析素材大全.zip

金庸武侠小说词频统计及情感分析使用词典大全.txt

stopword.txt

R语言模糊聚类实现（程序+数据）.zip

推荐系统基准数据.zip

births_transformed.csv

python情感分析案例（数据+源码）.zip

空空如也