YBK233-CSDN博客

原创中文分词&词云图

sentence = """风暴降生丹妮莉丝·坦格利安一世、不焚者、弥林女王、安达尔人、洛伊拿人和先民的女王、草海上的卡丽熙、奴隶解放者和火龙之母、维斯特洛的统治者暨全境守护者、阿斯塔波的解放者、弥莎和龙石岛公主"""jieba.add_word("坦格利安")jieba.load_userdict() 通过此函数加载公司内或行业内的专用词典,用于丰富默认词典。

2024-06-20 14:46:57 1719 1

网格搜索（grid search）是一种用来选择模型超参数的方法。它通过遍历超参数的所有可能组合来寻找最优的超参数。通常，网格搜索和交叉验证结合使用，以便在选择超参数时考虑模型的泛化能力。如图，每个格子都是一组参数，使用交叉验证测试参数效果。但是效率低下。HalvingGridSearchCV使用连续减半搜索策略来评估指定的参数值。搜索开始时，使用少量资源（默认为样本数量）评估所有候选参数组合，并在后续的迭代中逐步增加资源量，同时仅选择表现最佳的候选参数组合进行进一步的评估。工作流程。

2024-06-18 10:28:58 1409

原创半监督学习

半监督学习（Semi-Supervised Learning，SSL）是机器学习领域中的一个重要分支，它结合了监督学习和无监督学习的思想，用于处理标签数据稀缺而无标签数据丰富的场景。Self Training自训练Label Propagation标签传播Label Spreading标签扩散Self Training自训练是一种简单的半监督学习方法，它首先使用已标记的数据训练一个监督学习模型。然后，该模型用于预测未标记数据的标签。

2024-06-17 17:20:35 1218 1

原创类别不平衡

研究算法时均认为数据是对称分布的，即正负样本数据相当。现实数据中少数类占比20%，甚至10%都不到，容易对模型算法产生影响。sampling_strategy: default= "auto" 过采样策略，可以为0.5，即调整样本比例为0.5倍；minority:只过采样类别比例最少的样本，多分类时用；not_minority出了最少、最多的样本，其他类别过采样，过采样到和最多类别的样本数量一样多;not_majority：除了最多的样本，其他都进行过采样;all：所有都过采样;

2024-06-15 21:59:24 1420

原创集成学习 Ensemble Learning

集成学习（ensemble learning）本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。机器学习可用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等。思想：通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器。如果个体学习器预测准确率很差，使用集成学习后会导致好的结果更好，同时也会导致差的更差。所有需要提高个体学习器性能，在集成学习算法的思路是好（的学习器）而不同（不同的学习器）。

2024-06-15 11:45:24 1347

原创关联规则延伸之协同过滤

基于物品的协同过滤（item collaborating filter，简称item CF）算法给用户推荐那些和他们之前喜欢的物品相似的物品；如购买该商品的用户还购买来其他商品基于物品的协同过滤和基于用户的协同过滤原理相似，只是在计算邻居时采用物品本身，而不是从用户的角度，即基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给用户。

2024-06-11 17:05:59 1107

原创关联规则及Apriori算法

第一次遍历，对所有单项的支持度进行计数，并确定频繁项；在后续的每次遍历中，利用上次遍历所得频繁项集作为种子项集，产生新的频繁项集-候选项集，并对候选项集的支持度进行计数，在本次遍历结束时统计满足最小支持度的候选项集，本次遍历对应的频繁项集就算是确定了，这些频繁项集又成为下一次遍历的种子；例如：在7条记录中，购买牛肉的记录有4条，在4条记录中又有3条记录显示购买了鸡肉，即R：牛肉→鸡肉的置信度为3/4，表示来在购买牛肉的顾客当中有3/4的人买了鸡肉，反映了可预测的程度，即顾客买了牛肉的话有多大可能性买鸡肉；

2024-06-11 15:40:51 1162

原创决策树Decision Tree

决策树说一种常用的机器学习算法，它可以用于分类和回归问题。它通过一系列的判断条件对数据进行分类，最终形成一个树形结构。易于理解，模型简单，不需要对数据预处理，可以处理连续、离散数据，对缺失值和异常值有很好的容错性；只能建立二叉树；对连续性属性处理方式同C4.5，只不过用GINI系数作为划分属性依据；可用于分类、预测，可以使用均方误差代替基尼系数作为损失函数的计算基础，此时CART用于回归；

2024-06-05 10:40:46 1165

原创帆软FCA-FineReport 认证试题及答案

决策报表的制作大致步骤是：新建决策报表→选中模板主题→新建数据集→拖拽组件→设计组件→报表预览(得分：2分满分：2分)决策报表设置为横向自适应时，在不同屏幕分辨率下，单页显示不全时，纵向会出现滚动条(得分：2分满分：2分)决策报表中，其他组件引用报表块中的单元格数据，也可以引用数据集中的数据(得分：2分满分：2分)用户管理可以通过三种形式添加用户：手动添加用户、导入用户、同步用户(得分：2分满分：2分)在条件属性或自定义显示设置中，用来表示单元格自身内容的变量为（）(得分：2分满分：2分)

2024-06-04 21:47:04 5779

原创 Pipeline管道

pipelines直译为管道，类似于流水线的意思，可以将数据预处理和建模流程封装起来。在数据处理过程中，很多步骤都是重复或者类似的，比如数据处理，特征选择，标准化，分类等，pipeline就可以实现以下几点好处1、简化代码：直接将步骤封装成完整的工作流，避免代码重复2、更少出bug，流程规范话，避免在建模和部署过程中漏掉某个步骤3、更易于生产/复制：直接调用fit和predict来对管道中所有的算法模型进行一次性进行训练和预测。

2024-06-03 11:00:03 1215

原创 SparkML

Apache Spark ML 是机器学习库在 Apache Spark 上运行的模块。功能模块介绍名称功能数据模型管道API模型参数模块模型变量相关模块分类算法模块聚类算法模块推荐系统模块回归算法模块参数调整模块模型验证模块。

2024-06-03 10:25:43 735

原创 Spark SQL

Spark SQL是一个用于处理结构化数据对组件，主要用于结构化处理和对数据执行SQL查询，类似于pandas操作，只不过数据量相对更大。批量处理与数据分析在数据挖掘过程中用于数据准备和数据探索内存需求量大的数据，用spark SQL会出现内存溢出，建议使用hive不支持数据更新不可建立索引spark SQL数据集类型：DataFrame是一个以命名列方式组织的分布式数据集，与关系数据库中的表类似。

2024-06-02 21:59:34 1495 2

原创 Spark介绍及RDD操作

spark封装了python接口，使用python调用spark工作原理如下SparkCore-RDDRDD(Resilient Distributed DataSes)指一个只读的，可分区的分布式数据集。这个数据集放在内存或缓存中，可在计算中重复读取，RDD特点：返回值还是一个RDD，如Map、GroupBy操作。转换操作是延迟操作的，只有遇到后续的行动（Action）操作才会执行，这也为代码优化提供可能。转换操作如下：flatMp会将每次返回的结果扁平化，例如：map 返回的是 [1,

2024-06-02 16:50:40 1009

原创 Python可视化之seaborn

seaborn是在matplotlib基础上开发的一套API，比matplotlib简洁，为图形样式和颜色设置提供合理的选择，同时为很多常用的统计图形提供专门的高级函数调用。pandas与DataFrame有机结合，是使用matplotlib时很好的附加工具。其中offset可以设置坐标轴偏移位置。

2024-04-08 21:25:08 1109

原创 Python可视化之pandas

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-04-06 14:06:40 811 2

原创 Python可视化之Matplotlib

2、解决中文乱码问题3、图形展现形式在jupyter notebook中有2种图形展现形式%matplotlib notebook:运行这句命令会在notebook中启动交互式图形%matplotlib inline:运行这句命令会在notebook中启动静态图形如果没有运行该命令，默认展示静态图形一、图形绘制1.折线图plot展现变量的趋势变化调用方式：plt.plot(x,y,ls=‘-’,lw=w,label=‘plot figure’)参数：x：x轴的数值y：y轴的数值

2024-04-04 20:44:40 1836 1

原创 Python基础之pandas：字符串操作与透视表

Series中的字符串如果包含缺失值，最快的处理办法是pandas字符串操作方法。

2024-04-03 21:19:04 1118

原创 Python基础之pandas：文件读取与数据处理

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-04-02 21:59:57 2267

原创 Python基础之pandas：Series和DataFrame定义及使用

pandas有两种基本对象：Series、DataFrameseries和字典非常类似，我们可以将index看成key，对应值为value如果在series中找不到要找的值，则返回预设的默认值。

2024-03-31 20:52:57 2191

原创 Python之numpy：常用运算&广播机制

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-03-31 17:56:12 797

原创 Python之numpy：数组定义&ndarray操作

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-03-31 17:01:52 2911 1

原创 Python连接MySQL

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-03-30 14:57:02 628

原创 Python基础之Class类的定义、继承、多态

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-03-30 13:54:34 445

原创 Python基础之函数

收集函数（不定长参数）：只指定一个参数，但允许调用函数时传入任意数量的参数如果函数有多个参数，并且需要设置收集位置参数，一般把收集位置参数写在最后，否则容易出错，如果出错，如下图，可参考以下办法解决。

2024-03-29 23:57:41 605

原创 Python列表、元组、字典及集合

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、列表定义方式：二、元组1、定义方式：2、元组中的物理存储地址不可修改,如果修改则会报错，但是元组中的列表、字典项等却可以修改三、字典创建方式四、逻辑函数all()对于可迭代的所有x值为true，则返回true，如果iterable为空，则返回trueany()对于可迭代的任何x值为true，则返回true，如果iterable为空，则返回false一、列表定义方式：二、元组1、定义方式：2、元组中的物理存储地址

2024-03-28 22:00:28 353

原创 Python基础中易错点分享

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

2024-03-28 21:10:52 378

原创【CDA二级数据分析备考思维导图】

CDA二级数据分析备考思维导图CDA二级复习备考资料共计七个章节，如需资料，请留言，概览如下图：一、数据采集与处理1.数据采集方法2.市场调研和数据录入3、数据探索与可视化4、数据预处理方法总结：以上为自己学习数据分析所整理的资料，欢迎互相交流学习。CDA二级复习备考资料共计七个章节，如需资料，请留言，概览如下图：一、数据采集与处理1.数据采集方法2.市场调研和数据录入3、数据探索与可视化4、数据预处理方法总结：以上为自己学习数据分析所整理的资料，欢迎互相交流学习。

2024-03-24 18:49:04 1274 9

原创 CDA一级备考思维导图

CDA数据分析一级备考资料

2023-11-25 14:26:14 932

原创 Python装饰器与闭包

Python基础之闭包、装饰器

2023-03-15 22:54:56 301 1

原创小白起步之SpringBoot+Mybatis多数据源配置

pom文件<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.3.3.RELEASE</version> <relativePath/> </parent> <groupId>com.e.

2020-09-03 00:15:45 324

原创 python编辑器选择

一、Linux环境和Windows环境下个人推荐推荐使用geany，个人认为这个编辑器优于pycharm，pycharm破解起来异常麻烦，而且它体积小，能够运行几乎所有的程序（而无需终端来运行）。也可以选择anaconda作为geany当做python的编辑器Linux中安装的命令如下：sudo apt-get geanywindows中，可以点击链接https://www.geany.or...

2019-05-16 16:25:19 2522

原创 win10系统python3更新卸载安装pip

更新pip方法一：python -m pip install --upgrade pip方法二：easy_install --upgrade pip注意：如果更新不成功，请尝试卸载重新安装卸载pip命令：python -m pip uninstall pip安装pip首先下载：get-pip.py网址：https://bootstrap.pypa.io/get-pip.py然后将...

2019-04-07 23:51:11 2471

原创 docker中搭建Spark集群

注意：在Hadoop集群搭建完成的基础上进行此种操作；我是三台虚拟机同时进行安装操作，当然也可以通过scp方式进行虚拟机直接文件的传递，在此不表。首先安装scala下载地址：https://www.scala-lang.org/download/根据自己需要进行选择，我选择的是scala-2.12.7.tgz,然后将安装包放到共享目录下1、创建镜像容器 -P将容器的所有端口映射到主机端口...

2018-11-04 17:13:14 1179

原创 docker中搭建Hadoop集群

前提：jdk和ssh服务都已经安装完成，如未完成，请参考博主所写博客1、创建镜像容器 -P将容器的所有端口映射到主机端口docker run -itd -v /c/Users:/root/build -P -h master --name master --net mynetwork --ip 172.18.0.2 hadoop:master /bin/bashdocker run -it...

2018-10-16 18:30:19 418

原创 docker中安装配置ssh服务

一、安装ssh1、创建容器docker run -itd -v /c/Users:/root/build -h myssh --name myssh --net mynetwork --ip 172.18.0.2 centos:jdk8 /bin/bash2、升级yum并安装ssh服务端和客户端yum -y updateyum -y install passwd openssl ope...

2018-10-16 17:45:11 2443 1

原创 docker入门及安装jdk

1、优势有了虚拟机为什么选择docker呢？简要对比如下：2.理解dockerdocker包括三个基本概念：镜像、容器、仓库基本概念理解之后，docker也就很简单了三者关系如下：3.基本使用a.从 Docker 镜像仓库获取镜像docker pull centos(默认下载最新版本)docker pull centos（下载指定版本）b.查看是否已经下载成功docke...

2018-10-16 17:02:24 881

原创文件输入输出及csv文件

读取文件fileobject=open('b.txt')result=fileobject.read()print(result)fileobject.close()测试结果如下图所示：写入文件：fileobject=open('c.txt',mode='w')fileobject.write('hello,world.您好')fileobject.flush...

2018-08-16 10:33:34 903

原创 Python之OS模块

os模块就是对操作系统进行操作，使用该模块必须先导入模块：查看环境变量、操作系统名及Home、及系统环境变量import osprint('path环境变量:',os.environ)print('操作系统名:',os.environ['os'])print('HOME:',os.environ)测试结果如下图所示：查看home路径print('HOME路径：',os...

2018-08-15 23:02:39 432

原创 Python的异常及处理

python异常案例一自定义异常class ShortInputException( Exception ): #继承自Exception #定义构造方法 #__init__是构造方法，用于类的对象初始化 # self相当于Java中的this，表示对象的地址 def __init__(self,value): self.va...

2018-08-15 21:34:47 336

原创 Linux中Hadoop的安装及环境变量配置

Hadoop的运行需要Java环境，请确保在jdk安装成功的情况下安装Hadoop 第一步：从官网下载Hadoop 网址：http://hadoop.apache.org/releases.html 本文以2.7.6版本为例，作简单介绍第二步，解压并配置环境解压命令：tar -zxvf hadoop-2.7.6.tar.gz 配置环境变量： export HADOOP_HO...

2018-08-07 11:25:25 20240 4