- 博客(65)
- 资源 (1)
- 收藏
- 关注
原创 使用docker创建hadoop集群:Couldn‘t upload the file
https://github.com/big-data-europe/docker-hadoop/issues/98
2024-05-15 00:30:31 280
原创 找不到conda可执行文件:解决方法
1.在新版本的pycharm出现的问题如下:2.解决方法:2.1 将anaconda\Scripts\conda.exe选中2.2选择自己的anconda自己的环境,之后就可以正常创建conda环境
2023-10-23 21:07:45 3032 2
原创 pytorch中torch.gather()简单理解
从输入张量中按照指定维度进行索引采集操作,返回值是一个新的张量,形状与,根据指定的索引从输入张量中采集对应的元素。
2023-08-28 20:48:54 974
原创 简单实现Linux 服务器之间的免密登录
user为你的用户名,server 为另外服务器的 IP 地址或主机名。使用 ssh-copy-id 命令将公钥文件复制到另外服务器。使用 ssh 命令连接到另外两台服务器,看是否实现了免密登录。
2023-07-08 23:37:09 953
原创 java解析xml文件
MyContentHandler类继承自DefaultHandler,是一个自定义的内容处理器。在该类中重写了startElement()、endElement()和characters()方法,以处理XML解析的不同事件。
2023-07-08 18:21:00 427
原创 对象流与数据流
数据流(Data Stream)是用于读写和的流。和DataInputStream是InputStream的子类,用于从输入流中读取基本数据类型和字符串。它提供了一系列的read方法,可以读取各种类型的数据,如readInt()、readDouble()、readUTF()等。通过DataInputStream可以保证从输入流中按照特定格式读取数据,而不必担心字节顺序和编码问题。DataOutputStream是OutputStream的子类,用于将基本数据类型和字符串写入输出流。
2023-07-07 13:09:16 424
原创 Java中try-with-resources
这样,我们就不需要手动编写关闭资源的代码了,提高了代码的可读性和简洁性。try-with-resources结构允许我们在try语句块中声明一个或多个资源,这些资源必须实现java.lang.AutoCloseable接口。在代码块结束时,资源会自动关闭,即使发生了异常。在传统的try-catch-finally结构中,我们需要手动关闭打开的资源,例如文件、网络连接或数据库连接,以确保资源的释放。在Java中,try-with-resources是一种用于自动关闭资源的语法结构。
2023-07-07 10:31:41 1459
原创 java中Optinal类
Optional 是一个容器类,用于表示一个值存在或不存在的情况。它是为了解决空指针异常而引入的。使用 Optional 可以有效地避免对空值进行操作时出现的 NullPointerException。
2023-07-05 15:43:55 192
原创 Stream流式编程
在Java中,Stream 是一个用于操作集合元素的抽象概念。它提供了一种类似于流水线的方式来处理和操作数据。使用 Stream,你可以通过一系列的中间操作和最终操作来对集合进行转换、过滤、映射等操作,从而以一种简洁、函数式的方式处理数据。
2023-07-05 14:43:32 210
原创 java中lambda表达式
参数列表:指定函数的参数。箭头符号 ->:将参数列表与 Lambda 表达式的主体分隔开。Lambda 主体:定义函数的具体实现。
2023-07-05 00:12:28 104
原创 MIoU认识
MIoU是指平均交并比(Mean Intersection over Union),也称为平均IoU(Intersection over Union)。它是一种常用的评估指标,用于衡量语义分割任务。在语义分割任务中,每个像素都被赋予一个特定的类别标签,我们可以将预测结果和真实标签分别视为两个二值图像。交并比是通过计算预测结果和真实标签之间的重叠区域与它们的并集之间的比例来度量它们的相似程度。具体地,对于每个类别,我们可以计算该类别的交并比(IoU)并取其平均值,得到MIoU。
2023-07-04 09:49:33 4736
原创 learning_curve()详解
learning_curve() 是一个可视化工具,用于评估机器学习模型的性能和训练集大小之间的关系。它可以帮助我们理解模型在不同数据规模下的训练表现,进而判断模型是否出现了欠拟合或过拟合的情况。该函数会生成一条曲线,横轴表示不同大小的训练集,纵轴表示训练集和交叉验证集上的评估指标(例如准确率、损失等)。通过learning_curve() 可以直观地了解模型的性能和训练集规模之间的关系,可以帮助我们进行模型选择、调优、判断是否需要增加更多的数据来改善模型性能。
2023-07-03 17:30:31 905
原创 DecisionTreeRegressor()作用详解
用于构建回归树模型。回归树是基于决策树算法的一种模型,用于解决回归问题,即预测连续型变量的值。DecisionTreeRegressor()类的主要作用是通过输入的训练数据,构建一个回归树模型,然后可以使用该模型对新的数据进行预测。它使用了以为准则的分裂策略来生成树,并对节点的最优划分进行决策。通过调用fit(X, y)方法,其中X是训练样本的特征矩阵,y是对应的目标值(标签),来拟合(训练)回归树模型。通过调用predict(X)方法,其中X是测试样本的特征矩阵,来进行预测。
2023-07-03 17:02:08 940
原创 sklearn 中ShuffleSplit()函数详细解
ShuffleSplit()函数是交叉验证中的一种分割数据集的方法。它的作用是将原始数据集随机打乱,并按照指定的比例将数据集划分为训练集和测试集。具体来说,ShuffleSplit()函数会将数据集中的样本随机打乱,并根据设定的参数生成多个不重叠的训练集和测试集拆分。每次拆分都会返回一个新的拆分器。
2023-07-03 16:03:15 1268
原创 机器学习模型的评估
在训练数据上训练模型。在验证数据上评估模型。模型准备上线之前,在测试数据上最后测试一次原因在于开发模型时总是需要调节模型配置,比如确定层数或每层大小[这些叫作模型的超参数(hyperparameter),以便与参数(权重)区分开]。这个调节过程需要使用模型在验证数据上的表现作为反馈信号。该过程本质上是一种学习过程:在某个参数空间中寻找良好的模型配置。因此,基于模型在验证集上的表现来调节模型配置,很快会导致模型在验证集上过拟合,即使你并没有在验证集上直接训练模型。
2023-05-14 11:43:00 377 1
原创 常用的数据获取网站
·流行的开放数据存储库:·UC Irvine Machine Learning Repository(http://archive.ics.uci.edu/ml/)·Kaggle datasets(https://www.kaggle.com/datasets)·Amazon’s AWS datasets(http://aws.amazon.com/fr/datasets/)·元门户站点(它们会列出开放的数据存储库):·Data Portals(http://dataportals.org/)·O
2023-05-11 19:54:56 924
原创 卷积神经网络详解
1.padding为VALID情况output_width=(in_width-filter_width + 1)/strides_ width(结果向上取整)output_height=(in_height-filter_height+1)/strides_height(结果向上取整)● 输入的尺寸中高和宽定义成in_height、in_width。● 卷积核的高和宽定义成filter_height、filter_width。
2023-05-02 16:14:55 3902 1
原创 tensorflow中的共享变量
在构建模型时,需要使用tf.Variable来创建一个变量(也可以理解成节点)。但在某种情况下,一个模型需要使用其他模型创建的变量,两个模型一起训练。此时需要用到共享变量。这时就是通过引入get_variable方法,实现共享变量来解决这个问题。
2023-04-28 16:35:26 555
原创 tensorflow基础
首先需要建立一个saver,然后在session中通过saver的save即可将模型保存起来。#之前是各种构建模型graph的操作(矩阵相乘,sigmoid等)saver = tf.train.Saver() #生成saversess.run(tf.global_variables_initializer()) #先对模型初始化#然后将数据丢入模型进行训练blablabla#训练完以后,使用saver.save来保存#file_name如果不存在,会自动创建。
2023-04-27 15:41:15 1098
原创 tensorflow开发的基本步骤
● 通过占位符定义:一般使用这种方式。● 通过字典类型定义:一般用于输入比较多的情况。● 直接定义:一般很少使用。学习参数的定义与输入的定义很像,分为直接定义和字典定义两部分。这两种都是常见的使用方式,只不过在深层神经网络里由于参数过多,普遍都会使用第二种情况。直接定义。
2023-04-27 11:54:24 575
原创 线性分类算法:逻辑回归和Softmax回归
逻辑回归不是一个回归的算法,逻辑回归是一个分类的算法,因为逻辑回归算法是基于多元线性回归的算法。而正因为此,逻辑回归这个分类算法是线性的分类器,所以为有监督的。逻辑回归一般用于o-1分布的有监督分类问题,softmax用于多项式分类。逻辑多项式回归一般用于医疗影橡,如病例所属的类,可将不同的病例分到不同类中,一种病例可以分多次;而softmax则是归为一类。由 GLM 可知,LinearRegression,LogisticRegression,SoftmaxClassification。
2023-04-13 15:28:58 896
原创 正则化的基本认识
正则化就是防止过拟合,增加模型的鲁棒性 robust,鲁棒是 Robust 的音译,也就是强壮的意思。鲁棒性调优就是让模型拥有更好的鲁棒性,也就是让模型的泛化能力和推广能力更加的强大。项,这里面损失函数就是原来固有的损失函数,比如回归的话通常是 MSE,分类的话通常是 cross entropy 交叉熵,然后在加上一部分惩罚项来使得计算出来的模型 W 相对小一些来带来泛化能力。L1 正则会使得计算出来的模型有的 W 趋近于 0,有的 W 相对较大,而 L2 会使得 W 参数整体变小。
2023-04-10 21:43:43 403
原创 归一化和标准化
左边为归一化的原因是:量纲相同,所以权重的影响相同,如:y=0.1x1+100x2,此时没有做归一化处理,x2的结果会影响其值更严重。优点是一定可以把数值归一到 0到 1 之间,缺点是如果有一个离群值,正如我们举的例子一样,会使得一个数值为 1,其它。数值都几乎为 0,所以受离群值的影响比较大。解决量纲的不统一,将数据统一在0-1之间。为了解决数据混乱,偏差严重的问题。
2023-04-10 20:36:25 305
原创 梯度下降法
1.之前利用θ的解析解公式求解出来的解我们就直接说是最优解的一个原因是因为 MSE这个损失函数是凸函数,但是如果我们机器学习的损失函数是非凸函数的话,设置梯度为 0会得到很多个极值,甚至是极大值都有可能。是一个通用的优化算法来帮助一些机器学习算法求解出最优解的,用于以最快的速度把模型参数θ求解出来。2. 之前利用θ的解析解公式求解的另一个原因是特征维度并不多,当维度多时计算复杂。
2023-04-10 19:19:31 264
原创 lasso与岭回归和多项式回归
在标准线性回归的基础上修改的损失函数的回归算法。本质上是一个线性模型的扩展,如将x2(平方)当作一个变量。lasso为l1范数,岭回归为l2范数。解决非线性回归的分布。
2023-03-24 16:48:48 144
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人