闵少搞AI-CSDN博客

给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.举个例子假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.除此之外, 我们还可以把"是谁"和"敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中,假设1000就代表"是谁"和"敲动"共同出现且相邻。

2025-02-14 23:36:43 942

原创 NLP_[3]-文本张量表示方法

本文介绍了文本张量的三种表示方法

2025-02-14 16:46:57 1086

原创 NLP_[2]-认识文本预处理

分词就是将连续的字序列按照一定的规范重新组合成次序列的过程在英文的行文中单词是以空格作为自然分界符的而中文只是字、句、段能通过明显的分解符来简单划界唯独词没有一个形式上的分界符分词的过程就是找到这样分界符的过程举个例子我爱我们的国家,我爱北京[‘我’,‘爱’,‘我们’,‘的’,‘国家’,‘,’,‘我’,‘爱’,‘北京’]分词的作用词作为语言语义理解的最小单元是人类理解文本语言的基础因此也是AI解决NLP领域高阶任务如自动问答机器翻译文本生成的重要基础环节。

2025-02-09 23:45:51 1273 1

原创自然语言处理NLP_[1]-NLP入门

自然语言处理(Netutal Language Provessing) 简称NLP 是计算机科学与语言学中关注于计算机与人类语言间转换的领域- 是人工智能的一个重要分支，旨在使计算机能够理解、生成和处理人类语言NLP技术在许多领域都有广泛的应用场景.NLP的应用场景非常广泛，涵盖了从日常生活到专业领域的各个方面。随着深度学习和大数据技术的发展，NLP的能力不断提升，未来将在更多领域发挥重要作用。

2025-02-08 17:39:27 1048

原创 NLP_[4]_文本预处理-文本数据分析

文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.标签数量分布句子长度分布词频统计与关键词词云。

2025-02-08 16:43:48 1254

原创 Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接。‘))‘: /simple/tensorflow/

解决 Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接。'))': /simple/tensorflow/

2025-02-06 19:35:30 280

原创人工智能之深度学习_[5]-神经网络优化&学习率衰减优化&正则化方法

在设计机器学习算法时希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差，这些策略被统称为正则化神经网络强大的表示能力经常遇到过拟合，所以需要使用不同形式的正则化策略目前在深度学习中使用较多的策略有范数惩罚，DropOut，特殊的网络层等，接下来我们对其进行详细的介绍。

2025-01-20 21:37:19 1873

原创人工智能之深度学习_[4]-神经网络入门

人工神经网络（ArtificialNeuralNetwork，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。它由多个互相连接的人工神经元（也称为节点）构成，可以用于处理和学习复杂的数据模式，尤其适合解决非线性问题。人工神经网络是机器学习中的一个重要模型，尤其在深度学习领域中得到了广泛应用。人脑可以看做是一个生物神经网络，由众多的神经元连接而成。各个神经元传递复杂的电信号，树突接收到输入信号，然后对信号进行处理，通过轴突输出信号。

2025-01-18 23:59:05 1239

原创人工智能之深度学习_[3] -PyTorch自动微分模块和构建线性回归模型

训练神经网络时，最常用的算法就是反向传播。在该算法中，参数（模型权重）会根据损失函数关于对应参数的梯度进行调整。为了计算这些梯度，PyTorch内置了名为 torch.autograd 的微分模块。接下来我们使用这个结构进行自动微分模块的介绍，我们使用 backward 方法、grad 属性来实现梯度的计算和访问。我们使用 PyTorch 的各个组件来构建线性回归模型。不能将自动微分的张量转换成numpy数组，会发生报错，可以通过detach()方法实现。自动微分就是自动计算梯度值,也就是计算导数。

2025-01-17 21:37:53 1636 1

原创人工智能之深度学习_[2]-PyTorch入门

张量是PyTorch中的核心数据抽象PyTorch中的张量就是元素为同一种数据类型的多维矩阵，与NumPy数组类似。PyTorch中，张量以"类"的形式封装起来，对张量的一些运算、处理的方法（数值计算、矩阵操作、自动求导）被封装在类中。

2025-01-16 23:56:01 1247

原创人工智能之深度学习-[1]-了解深度学习

深度学习（Deep Learning）是机器学习（Machine Learning）的一种方法，它通过模拟人脑的神经网络结构来进行学习和推理。深度学习使用多层神经网络来分析和建模数据，尤其擅长处理大量数据和复杂模式的识别，如图像、语音、文本等。深度学习的“深度”指的是神经网络中的层数，一般来说，层数越多，网络的表示能力越强。以的算法。

2025-01-16 15:54:43 1306

原创机器学习模型调优指南

机器学习模型的超参数调优是优化模型性能和提高模型泛化能力的关键步骤。通过合理的调优，可以有效地提高模型的预测准确性，防止过拟合或欠拟合，并加快训练过程，从而提升整体工作效率。

2025-01-12 23:14:11 2584

原创机器学习中使用Seaborn绘制KDE核密度估计曲线

核密度估计（KDE）图，一种可视化技术，提供连续变量概率密度的详细视图。在本文中，我们将使用Iris Dataset和KDE Plot来可视化数据集。在机器学习中，核密度估计（KDE）不仅用于可视化数据分布，还被用作一种非参数方法来估计数据的概率密度函数。这在特征工程、异常检测、生成模型等领域中有重要应用。核密度估计在机器学习中的应用。

2025-01-11 23:37:31 1483

原创人工智能知识分享第十二天-机器学习_常见术语整理

数据集，从字面意思很容易理解，它表示一个承载数据的集合，如果说“模型”是“魔法盒”的话，那么数据集就是负责给它充能的“能量电池”，简单地说，如果缺少了数据集，那么模型就没有存在的意义了。解释：偏差-方差权衡是机器学习中一个重要的概念，用于解释模型复杂度和泛化性能之间的关系。简单的模型可能有较大的偏差但较小的方差，而复杂的模型可能具有较小的偏差但较大的方差。这种方法可以是自底向上的（聚合聚类），从单个数据点开始并逐渐形成更大的簇，也可以是自顶向下的（分裂聚类），从整个数据集开始并逐渐将其拆分成更小的簇。

2025-01-10 23:54:47 1074

原创人工智能知识分享第十一天-机器学习_探索性数据分析(EDA)

在机器学习中，EDA不仅是数据清理和初步理解的过程，也是发现数据中隐藏模式和关系的关键。它有助于我们更好地准备数据，从而提高后续建模阶段的成功率。EDA是一个迭代过程，在整个项目周期中可能会多次返回这个步骤，随着对数据理解的加深而不断优化我们的分析方法。

2025-01-09 21:34:01 1105

原创人工智能知识分享第十天-机器学习_聚类算法

参数:n_clusters:开始的聚类中心数量整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。方法:计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)已知：客户性别、年龄、年收入、消费指数需求：对客户进行分析，找到业务突破口，寻找黄金客户数据集共包含顾客的数据, 数据共有 4 个特征, 数据共有 200 条。接下来，使用聚类算法对具有相似特征的的顾客进行聚类，并可视化聚类结果。

2025-01-08 23:47:47 1583

原创人工智能知识分享第十天-机器学习_特征降维

用于训练的数据集特征对模型的性能有着极其重要的作用。如果训练数据中包含一些不重要的特征，可能导致模型的泛化性能不佳。是指在某些限定条件下，降低特征个数，我们接下来介绍集中特征降维的方法：低方差过滤法，相关系数法，PCA（主成分分析）降维法。

2025-01-07 23:20:27 535

原创人工智能知识分享第十天-机器学习_朴素贝叶斯

朴素贝叶斯分类alpha：拉普拉斯平滑系数。

2025-01-07 23:08:03 789

原创人工智能知识分享第九天-机器学习_集成学习

Adaptive Boosting(自适应提升)基于 Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被前一步分类错误的样本的权重来训练一个强分类器。弱分类器的性能比随机猜测强就行，即可构造出一个非常准确的强分类器。训练时，样本具有权重，并且在训练过程中动态调整。被分错的样本的样本会加大权重，算法更加关注难分的样本。（观察下图）（1）不同的训练集—>调整样本权重（2）“关注”—>增加错分样本权重（3）“器重”—>好的分类器权重大（4）样本权重间接影响分类器权重。

2025-01-06 20:58:37 1700

原创人工智能知识分享第八天-机器学习_泰坦尼克生存预估&线性回归和决策树回归对比案例

"Died""Survivor"运行结果。

2025-01-04 15:51:03 684

原创人工智能知识分享第七天-机器学习_决策树

决策树决策树简介决策树例子决策树算法是一种监督学习算法，英文是Decision tree。决策树思想的来源非常朴素，试想每个人的大脑都有类似于if-else这样的逻辑判断，这其中的if表示的是条件，if之后的else就是一种选择或决策。程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。比如：母亲要给女儿介绍男朋友，是这么来对话的：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。

2025-01-03 23:14:17 1214

原创人工智能知识分享第六天-机器学习_逻辑回归（Logistic Regression）

在机器学习中，分类问题是一种常见的任务，目标是根据输入特征将数据点分配到不同的类别中。为了实现分类，我们需要训练一个分类器，该分类器能够根据输入数据的特征进行预测。逻辑回归（Logistic Regression）是一种常用的分类算法，尤其适用于二分类问题。逻辑回归的核心思想是通过对数几率函数（logistic function）将线性回归的输出映射到概率空间，从而实现分类。注意：逻辑回归虽然名字中有回归二字，但是它不是回归算法，而是分类算法。solver损失函数优化方法。

2025-01-02 23:01:26 1595

原创人工智能知识分享第五天-正则化.损失函数案例

数据介绍给定的这些特征，是专家们得出的影响房价的结果属性。不需要自己去探究特征是否有用，只需要使用这些特征。

2025-01-01 23:22:50 1258

原创人工智能知识分享第四天-线性回归

1 为什么叫线性模型？因为求解的w，都是w的零次幂（常数项）所以叫成线性模型2 在线性回归中，从数据中获取的规律其实就是学习权重系数w3 某一个权重值w越大，说明这个权重的数据对房子价格影响越大。

2024-12-31 23:38:59 1434

原创 Pyhton知识分享-利用KNN算法实现手写数字识别

数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数字的灰度图像。每个图像高 28 像素，宽28 像素，共784个像素。每个像素取值范围[0,255]，取值越大意味着该像素颜色越深训练数据集（train.csv）共785列。第一列为 “标签”，为该图片对应的手写数字。其余784列为该图像的像素值训练集中的特征名称均有pixel前缀，后面的数字（[0,783])代表了像素的序号。# 导入工具包。

2024-12-30 22:18:58 715

原创人工智能知识分享第三天-机器学习中交叉验证和网格搜索

坚持分享共同进步如有错误欢迎指出。

2024-12-29 23:04:48 1068

原创人工智能知识分享第二天-机器学习之KNN算法

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数【实操】回归API# 1.工具包# 2.数据(特征工程)# 分类# 3.实例化# 4.训练# 5.预测。

2024-12-28 22:34:14 1272

原创人工智能知识分享第一天-人工智能_机器学习初了解

从数据集角度来看：一列一列的数据为特征。从模型训练角度来看：对预测结果有用的属性为特征特征工程是：利用专业背景知识和技巧处理数据，让机器学习算法效果最好。这个过程就是特征工程释义：特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

2024-12-27 22:02:05 938

原创 Python知识分享第三十七天-Matplotlib画图

x:要显示的刻度值y:要显示的刻度值# 增加以下两行代码# 构造x轴刻度标签x_ticks_label = ["11点{}分".format(i) for i in x]# 构造y轴刻度# 修改x,y轴坐标的刻度显示。

2024-12-26 21:50:30 1297

原创 Python知识分享第三十六天-RFM案例

策略1：加权得分定义用户价值根据加权得分rfm_wscore，你可以将客户划分为不同的群体。高价值客户rfm_wscore高于某个阈值，例如 4.0 到 5.0。这类客户在最近购买、频率高、消费金额大，属于最重要的客户群体。中等价值客户rfm_wscore介于中间范围，例如 2.0 到 4.0。这类客户表现较好，但在某些维度（如频率或金额）可能稍有不足。低价值客户rfm_wscore较低，例如低于 2.0。这类客户可能消费金额不高，购买频率低或最近很少购买，通常不是业务的主要目标群体。

2024-12-25 22:11:52 1249

原创 Python知识分享第三十五天-Pandas分组聚合

坚持分享共同进步如有错误欢迎指出。

2024-12-24 22:32:17 762

原创 Python知识分享第三十四天-Pandas进阶

坚持分享共同进步如有错误欢迎指出。

2024-12-23 22:28:06 622

原创 Python知识分享第三十三天-Pandas入门三

apply() 函数执行自定义函数# apply(函数对象, axis=0)函数解释: 执行自定义的函数, 按行(1) 或者按列(0)传入数据.# 需求: 根据传入的列, 计算其极差(最大值和最小值的差值)# 计算指定列的极值。

2024-12-22 22:57:34 501

原创 Python知识分享第三十二天-Pandas入门二

Pandas中的数据类型介绍# Pandas 中的类型有一些和python是类似的例如 object(字符串) int bool nan(None) 也有特殊的# 如 datetime, timedelta, category# 演示datetime 日期时间类型# 演示 timedelte# 演示category# fruits = pd.Series(['apple', 'banana', 'cherry', 'apple', 'banana']) # 每个值都会占用空间.

2024-12-21 22:40:55 475

原创 Python知识分享第三十一天-Numpy和Pnadas入门

【代码】Python知识分享第三十一天-Numpy和Pnadas入门。

2024-12-20 21:04:20 620

原创知识分享第三十天-力扣343.(整数拆分)

给定一个正整数 n，将其拆分为至少两个正整数的和，并使这些整数的乘积最大化。返回你可以获得的最大乘积。示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 × 1 = 1。示例 2:输入: 10输出: 36解释: 10 = 3 + 3 + 4, 3 × 3 × 4 = 36。说明: 你可以假设 n 不小于 2 且不大于 58。

2024-12-19 19:32:31 764

原创 Python知识分享第二十九天-PyMySQL

概述:它是Python的1个库(模块), 可以实现通过Python代码, 操作MySQL数据库.该库需要手动安装一下.安装方式:方式1: 导包时自动安装.方式2: 在PyCharm的Settings -> Python编辑器或者Anaconda -> 安装方式3: 通过pip方式, 在命令行中安装.pip install pymysql -i 镜像地址例如:阿里云镜像: https://mirrors.aliyun.com/pypi/simple/

2024-12-18 22:23:33 939

原创知识分享第二十八天-数学篇一

因此，从这5个不同颜色的球中抽取3个球的不同方式一共有10种。具体来说，这些组合可以是：红、蓝、绿红、蓝、黄红、蓝、紫红、绿、黄红、绿、紫红、黄、紫蓝、绿、黄蓝、绿、紫蓝、黄、紫绿、黄、紫每个列表都是一个独特的组合，展示了你可以如何选择3个球而不考虑它们被选中的顺序。这就是组合的一个简单例子。

2024-12-16 22:24:13 758

原创 Python知识分享第二十七天-贪心算法

对每个孩子 i，都有一个胃口值 g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；输出: 1 解释:你有三个孩子和两块小饼干，3 个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是 1，你只能让胃口值是 1 的孩子满足。这里的局部最优就是大饼干喂给胃口大的，充分利用饼干尺寸喂饱一个，全局最优就是喂饱尽可能多的小孩。大尺寸的饼干既可以满足胃口大的孩子也可以满足胃口小的孩子，那么就应该优先满足胃口大的。5.如果没有找到，只移动饼干的指针，尝试用下一块更大的饼干去满足当前的孩子。

2024-12-14 22:17:29 1190

空空如也

空空如也