- 博客(52)
- 收藏
- 关注
原创 机器学习之集成学习概念基础
集成学习可以用于解决分类问题、回归问题、特征选取问题等等,在各类竞赛中十分常见,XGBoost更是收到众多数据科学家的喜爱,堪称数据竞赛打榜上分神器。融合多个不同的模型,以获得比单模型更优的预测结果,这就是集成学习的强大能力。上面提到的平均法(简单平均、加权平均)、投票法(简单投票、加权投票)以及Stacking都是对多个基学习器的结合策略。平均法和投票法简单而高效,但对模型的融合效果一般不如Stacking方法,不过Stacking方法要实现多个模型的训练,常常要花费大量的时间。
2022-09-26 16:09:48
1116
原创 差分隐私基础及在机器学习领域的应用与对比实验
数据是人工智能学习的基础,一个表现优异的机器学习或深度学习模型离不开大量的训练数据。然而,这些训练数据的来源是否合规?数据是否会泄露个人隐私?这是一个值得重视的问题。近年来我国数据立法进程不断加快,尤其强调数据应用过程中的数据安全。《中华人民共和国网络安全法》《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法(草案)》逐步完善了国家数据相关立法的顶层设计,着重强调了流通过程中的数据安全和个人信息保护。因此,我们有必要研究隐私保护技术,实现对数据隐私的保护,同时仍然可以使数据的价值得到利用。
2022-09-25 01:53:58
2632
2
原创 机器学习算法之决策树原理与实现
(Decision Tree)是一种常见的机器学习算法,它是在已知各种情况发生概率的基础上求取净现值的期望值大于等于零的概率,以进行决策分析的方法。决策树由一个根节点,以及若干个内部节点和叶结点组成,内部节点就是通过条件判断而进行分支选择的节点,而叶节点没有子节点,表示最终的决策结果。例如,给你一个西瓜样本,首先来看看它的色泽,如果是青绿色,再看看其根蒂形态,如果是蜷缩的,那么再来听听它敲起来的声音,如果是浊响的,那么我们可以得到结论:这是个好瓜。算法(即利用标记好的样本来训练,可以预测新的样本)。
2022-09-23 17:11:36
3195
原创 联邦学习基础介绍
联邦学习(Federated Learning)是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,不需要交换本地数据,仅通过交换模型参数或中间结果来构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡。
2022-09-19 15:12:55
6239
原创 Ampligraph——基于tensorflow的python库,可用于知识图谱嵌入和链接预测
Ampligraph——基于tensorflow的python库,可用于知识图谱嵌入和链接预测
2022-07-08 15:09:51
3196
3
原创 常用的DOS命令
DOS(Disk Operating System),即磁盘操作系统。它是一个基于磁盘管理的操作系统。在AnacondaPrompt界面中,需要用到一些DOS命令来对文件或者目录进行处理,以下是一些最为常用的DOS命令。日常操作掌握这些即可。1、dir:显示指定路径上所有文件或目录的信息格式:"dir [盘符:][路径][文件名] [参数]",比如"dir E:\test"。2、md(mkdir):建立目录格式:"md [盘符][路径]",例如"mdtest"。3、rd(rmdir)..
2021-08-08 20:47:40
1062
原创 基于朴素贝叶斯/逻辑回归的垃圾邮件文本分类
一、邮件数据集本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库,点我下载。分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件,并且还保留了邮件的原有格式(包括发送方、接收方、时间日期等等)和邮件中文内容。第二个链接即是中文文本的邮件数据集,点击链接即可下载。下载的压缩文件夹中,一个文件代表一封邮件,通过标签“spam”、“ham”进行区别是否垃圾邮件。spam是垃圾邮件,有4万多条。ham是正常邮件,有2万多条。..
2021-08-08 19:40:01
12119
2
原创 数据分析:Python库之numpy、pandas、matplotlib
模块(Module)是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句,能够有逻辑地组织 Python 代码段。把相关的代码分配到一个模块里能让Python代码更好用,更易懂。模块能定义函数,类和变量,模块里也能包含可执行的代码。模块定义好后,使用 import 语句来引入模块,语法:import module_name1[, module_name2,...]python的常用模块有numpy、pandas、matplotlib等等。一、numpy
2021-07-21 22:30:15
6434
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅