机器学习
文章平均质量分 89
唯余木叶下弦声
数据挖掘工程师,计算机技术专业硕士
展开
-
基于ALBERT 进行文本向量化
ALBERT (A Lite BERT) 是一种改进的 BERT 模型,旨在减少参数数量并提高训练速度,同时保持或提高性能。“albert_chinese_large”是 ALBERT 模型的一个版本,它是在中文数据集上预训练的。原创 2024-03-22 11:10:56 · 327 阅读 · 0 评论 -
(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测
Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。原创 2024-03-17 01:45:42 · 1034 阅读 · 0 评论 -
streamlit中文开发手册(详细版)
Streamlit 是一个用于创建数据科学和机器学习应用的Python框架。它的目标是使数据应用的开发变得更加简单,无需繁琐的前端代码。Streamlit的主要设计目标是让数据科学家和分析师能够轻松快速地构建数据科学和机器学习应用。它专注于简单性和快速迭代,使用户能够使用几行代码即可创建交互性应用。即使不懂前端知识HTML、CSS等,也能通过Streamlit框架提供的函数构建一个漂亮的web页面。原创 2024-01-12 14:15:15 · 9651 阅读 · 0 评论 -
机器学习算法之线性回归
线性回归(Linear Regression)模型是机器学习中最简单、最基础的监督学习模型,虽然简单,但却也非常重要,线性回归是很多复杂模型的基础。原创 2022-10-17 00:17:23 · 1588 阅读 · 0 评论 -
XGBoost.XGBClassifier分类算法参数详解
用于数据样本类别不平衡的时候,例如正例:负例 = 1:10,可以设置scale_pos_weight=10。:子采样参数,即训练每棵树时,使用的数据占全部训练集的比例。:L1正则化参数,在高维度的情况下,调节该参数可以加快算法的速度,使模型更加健壮。':树模型做为基分类器(采用dropout,随机丢弃一些树,防止过拟合)。:树的深度,默认值是6,一般取3-10。:控制树的每一个节点的每一次分裂,对列数的采样比重,默认值为1。:控制树的每一级的每一次分裂,对特征的采样比重,默认值为1。原创 2022-09-26 18:00:02 · 4259 阅读 · 0 评论 -
机器学习之集成学习概念基础
集成学习可以用于解决分类问题、回归问题、特征选取问题等等,在各类竞赛中十分常见,XGBoost更是收到众多数据科学家的喜爱,堪称数据竞赛打榜上分神器。融合多个不同的模型,以获得比单模型更优的预测结果,这就是集成学习的强大能力。上面提到的平均法(简单平均、加权平均)、投票法(简单投票、加权投票)以及Stacking都是对多个基学习器的结合策略。平均法和投票法简单而高效,但对模型的融合效果一般不如Stacking方法,不过Stacking方法要实现多个模型的训练,常常要花费大量的时间。原创 2022-09-26 16:09:48 · 830 阅读 · 0 评论 -
机器学习算法之决策树原理与实现
(Decision Tree)是一种常见的机器学习算法,它是在已知各种情况发生概率的基础上求取净现值的期望值大于等于零的概率,以进行决策分析的方法。决策树由一个根节点,以及若干个内部节点和叶结点组成,内部节点就是通过条件判断而进行分支选择的节点,而叶节点没有子节点,表示最终的决策结果。例如,给你一个西瓜样本,首先来看看它的色泽,如果是青绿色,再看看其根蒂形态,如果是蜷缩的,那么再来听听它敲起来的声音,如果是浊响的,那么我们可以得到结论:这是个好瓜。算法(即利用标记好的样本来训练,可以预测新的样本)。原创 2022-09-23 17:11:36 · 1877 阅读 · 0 评论 -
常用的DOS命令
DOS(Disk Operating System),即磁盘操作系统。它是一个基于磁盘管理的操作系统。在AnacondaPrompt界面中,需要用到一些DOS命令来对文件或者目录进行处理,以下是一些最为常用的DOS命令。日常操作掌握这些即可。1、dir:显示指定路径上所有文件或目录的信息格式:"dir [盘符:][路径][文件名] [参数]",比如"dir E:\test"。2、md(mkdir):建立目录格式:"md [盘符][路径]",例如"mdtest"。3、rd(rmdir)..原创 2021-08-08 20:47:40 · 920 阅读 · 0 评论 -
基于朴素贝叶斯/逻辑回归的垃圾邮件文本分类
一、邮件数据集本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库,点我下载。分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件,并且还保留了邮件的原有格式(包括发送方、接收方、时间日期等等)和邮件中文内容。第二个链接即是中文文本的邮件数据集,点击链接即可下载。下载的压缩文件夹中,一个文件代表一封邮件,通过标签“spam”、“ham”进行区别是否垃圾邮件。spam是垃圾邮件,有4万多条。ham是正常邮件,有2万多条。..原创 2021-08-08 19:40:01 · 7464 阅读 · 2 评论 -
信用卡交易数据异常检测
creditcard.csv信用卡交易数据异常检测原创 2021-08-02 20:52:23 · 3291 阅读 · 3 评论 -
数据分析:Python库之numpy、pandas、matplotlib
模块(Module)是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句,能够有逻辑地组织 Python 代码段。把相关的代码分配到一个模块里能让Python代码更好用,更易懂。模块能定义函数,类和变量,模块里也能包含可执行的代码。模块定义好后,使用 import 语句来引入模块,语法:import module_name1[, module_name2,...]python的常用模块有numpy、pandas、matplotlib等等。一、numpy原创 2021-07-21 22:30:15 · 5557 阅读 · 0 评论