python
文章平均质量分 82
北堂飘霜
如果不去争取,你想要的东西永远都不是你的!
展开
-
机器学习-- 爬虫IntelliScraper 重大更新说明
IntelliScraper 是一个高级的Python网络抓取项目,专为精确解析HTML内容和特征匹配而设计,用于从特定网页提取关键信息。该项目利用了如BeautifulSoup和scikit-learn等强大的库,提供了一种高效灵活的方式来抓取和处理网络数据。原创 2024-04-29 21:34:08 · 804 阅读 · 0 评论 -
机器学习 -- 分类问题
探讨了一个回归任务——预测住房价格,用到了线性回归、决策树以及随机森林等各种算法。本次中我们将把注意力转向分类系统。我们曾经对MNIST进行了分类任务,这次我们重新回到这里,细致的再来一次。Scikit-Learn提供了许多助手功能来帮助你下载流行的数据集。MNIST也是其中之一。获取之:结果是:共有7万张图片,每张图片有784个特征。因为图片是28×28像素,每个特征代表了一个像素点的强度,从0(白色)到255(黑色)。先来看看数据集中的一个数字,你只需要随手抓取一个实例的特征向量,将其重新形成一个原创 2024-04-22 16:53:17 · 1171 阅读 · 0 评论 -
机器学习 -- 端到端的机器学习项目
自定义转换器在机器学习数据预处理和特征工程中扮演着重要的角色。它们提供了一种灵活的方法来扩展 Scikit-Learn 的预处理功能,能够整合自定义的数据清洗步骤、属性添加、以及任何其他计算或转换操作,进而适应特定数据科学任务。如之前说过的:假设我们正在处理一个房价预测模型,我们的数据集包含以下几个特征:total_rooms:区域内的总房间数total_bedrooms:区域内的总卧室数population:区域内的人口数households:区域内的家庭户数。原创 2024-04-11 23:14:53 · 1063 阅读 · 2 评论 -
机器学习 -- 随机森林DEMO
之前看一些歌手或者演员选取节目的时候,上面不是一个评委,少则三五个,多则几十个,当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习也是一样的,机器学习中分为两种,投票选举和再学习,其中投票选举类似于Redis集群中选举Master,在机器学习中投票选举最流行的就是 : 随机森林(random forest)。随机森林,这是一支由许多树组成的强大舰队,每棵树都是通过观察星辰——数据的一部分,来学习并作出自己的预测。在随机森林中,限制树的深度可以帮助防止模型过于复杂和过拟合。原创 2024-04-01 11:06:31 · 751 阅读 · 1 评论 -
机器学习--支持向量机(通俗版本+demo)
较小的C值允许较大的间隔,提高模型的泛化能力,而较大的C值会尽量减少误分类,但可能导致间隔变小,增加过拟合的风险。有些乘客可能不完全符合咱们的乘客标准(比如,穿着不整齐的),但为了整体的航行目标(比如,分类的正确性),咱们可以选择稍微放宽标准,容纳他们上船。常见的指标包括准确率(咱们正确预测的比例)、召回率(在所有正样本中,咱们正确找到的比例),以及F1分数(准确率和召回率的调和平均,用来平衡两者的性能)。这条线,就是SVM中的最优超平面,它的特点是能最大程度上把两类宝藏分开,让咱们的分类任务清晰又精准。原创 2024-03-30 16:58:39 · 961 阅读 · 0 评论 -
机器学习 -- Octave基本操作
Octave语言是一种高级数值计算和数据可视化的开源软件。它提供了一种方便的方式来执行数值计算、数据分析和可视化,特别是在科学和工程领域中。今天学习了一下Octave的基本操作,记录一下。Octave的基本运算十分方便,只需输入 类似 1 + 1即可。这就是在Octave中的提现,是不是非常简单?这是一些基本操作,后面我会继续学习计算和绘图。再来,我们要结果生成2行3列结果全为1的元素。生成幻方矩阵(每行每列的和对角线的和相同)非常简单只需要, n:m 即可生成向量。在octave中,生成一个矩阵。原创 2024-03-03 19:20:15 · 485 阅读 · 0 评论 -
机器学习 -- 梯度下降算法加深
通过上面那个小例子,我们已经知道了,梯度下降算法常用于最小化代价函数(或损失函数),以此来优化模型的参数。代价函数衡量的是模型预测值与实际值之间的差异。通过最小化这个函数,我们可以找到模型预测最准确的参数。原创 2024-03-01 15:58:00 · 902 阅读 · 0 评论 -
机器学习 -- 矩阵和向量
例如,如果我们有一个数据集,其中包含有关人们年龄、身高和体重的信息,则可以使用一个矩阵来表示这个数据集,其中每一行代表一个人,每一列代表一种信息(年龄、身高、体重)。矩阵和向量的乘法是线性代数中的一个重要操作,可以视为矩阵乘以矩阵的特例,其中一个矩阵是列向量或行向量。3.数据处理:在机器学习中,数据通常以矩阵形式出现,模型参数也可以用矩阵表示,因此矩阵和向量的乘法是算法实现的基础。向量加减:用于合并或比较数据点的特征,例如,在图像处理中,可能需要调整像素值(向量表示)的亮度(通过加减标量)。原创 2024-02-20 18:24:45 · 880 阅读 · 0 评论 -
IntelliScraper 更新 --可自定义最大输出和相似度 支持Html的内容相似度匹配
之前我们在使用IntelliScraper 初代版本的时候,不少人和我反馈一个问题,那就是最大输出结果只有50个,而且还带有html内容,不支持自动化,我声明一下,自动化目前不会支持,以后也不会支持,因为法律的问题,所以数据的前置和后置处理是需要自行处理,如有特殊需求,可联系我。赶紧用起来,觉得好用,不要忘记点个star支持一下呦!这段代码很好的演示了如何在h10中找到h11的相似元素,在这里我做了后续数据清洗的工作,它能够很好的达到我的预期,同样的,并没有发镜像,待其彻底稳定后,会更新镜像。原创 2024-02-06 11:01:42 · 831 阅读 · 0 评论 -
机器学习 - 梯度下降
它是优化算法的核心,目标是通过调整模型的参数来最小化代价模型的值,从而使模型的预测结果更接近真实值。这都是一些梯度下降算法的概念,其实结合起来比较简单了,首先上一章的代价函数是找一个最接近y的值,这一章梯度算法实际上就是,当然,你可以理解为,我初始化我的两个变量 Y = A + BX。通过计算函数的梯度,朝着梯度的反方向移动一小步,不断重复这个过程,直到达到停止条件,从而找到目标函数的最小值点。然后,你到达了新的位置,你再次观察海拔高度,并计算新位置的梯度。首先,你选择一个起始点,可以是山谷的任意位置。原创 2024-02-04 21:28:08 · 1206 阅读 · 2 评论 -
机器学习 - 代价函数
我们画了三条线,第一个(绿色的线)是 y = 140 其中c1 是140 c2是0,是一个常量;它是模型参数的函数,用于评估模型的表现。我们要做的是选择一条最贴近于房价趋势的线,我们可以采用均方误差(Mean Squared Error, MSE)来衡量模型预测值与实际值之间的差异。通过这个标准均方误差(MSE)结果,我们可以知道,红色得线是最接近我们得预测得,绿色次之,蓝色再次之,误方差越大,预测越不准,反之同理。绝对值误差:另一种回归问题中的损失函数,计算预测值与实际值之差的绝对值的平均。原创 2024-02-01 14:54:15 · 886 阅读 · 0 评论 -
机器学习 -- 支持向量机
支持向量是最优超平面的关键组成部分,因为它们直接定义了分类间隔的边界。原创 2024-01-24 14:50:53 · 1448 阅读 · 1 评论 -
机器学习 -- 朴素贝叶斯分类器
贝叶斯定理提供了一种计算条件概率的方法,即在已知某些信息的情况下,事件发生的概率。在这里我们可以看到是把数据先转成向量,然后划分数据集和训练集,然后训练这些数据,最后给出结果,就其原理,实际上是,将词拆开之后,对每一个词计算概率,然后对给出的这个词,看看它的概率是好评大,还是差评大。这里我们通过两种方式,第一种是python提供好的一个API,第二个我们自己根据公式来写一个简单的分类器,比对一下效果。这里事实上就是计算 好坏文档的概率,然后再计算 每一个词在好文档,坏文档中出现的概率。:基于症状预测疾病。原创 2024-01-16 13:24:25 · 545 阅读 · 0 评论 -
机器学习 -- 余弦相似度
1.获取html文本内容,我有两个html文件(获取html很容易,自动化和http请求都可以做到,但是要注意robot.txt协议),h6是一个整体的大html ,h7是案例html,我要拿的是 所有回答的链接,所以h7就是随机一个链接的html。再或者我在找房子网上,爬到所有的房产信息,我们并不想做过多的处理,我只要告诉程序,请帮我爬一个类似 xxx 相似度为0.5的就可以了,然后我自会写一小段代码去给数据清洗,这就免去了每次不同网站写不同的一套脚本的痛苦。3.构建源html和目标html的特征。原创 2024-01-10 16:24:20 · 1042 阅读 · 0 评论 -
机器学习 -决策树的案例
我们将对这个特征的每个唯一值进行分割,并在每个子集上重复此过程。最佳特征的索引是 2,对应于我们数据集中的 ‘风速’ 特征。通过这些步骤,决策树逐渐在数据集的特征上进行分割,直到所有的数据都被正确分类或没有更多的特征可以用来进一步分割。如果一个特征有多个唯一值,那么 uniqueVals 将包含这些值,决策树的每个分支将对应这些值之一。现在要解决的问题是“基于当前的天气和其他条件,我们是否应该进行户外活动?这些数据分别是天气,是否闷热,风速和是否出门郊游。这是完整的代码,可以试着玩一下,可玩性还是ok的。原创 2024-01-08 19:00:00 · 598 阅读 · 0 评论 -
机器学习 - 决策树
熵是信息论中的一个核心概念,最初由克劳德·香农提出。它是用来量化信息中的不确定性或混乱度的度量。在信息论中,熵可以理解为传输的信息量或系统的无序程度。我们通过信息增益构建决策树,决策树类似于if else条件流程,我们可以使用python的绘图工具画出来。决策树的范例,如下,我们通过决策树就可以直接得到预测结果。原创 2024-01-05 17:14:08 · 880 阅读 · 0 评论 -
机器学习 -- k近邻算法
k近邻算法是一种简单但非常有效的机器学习算法,主要用于分类和回归问题。其核心思想是基于相似性原则进行预测:即相似的数据点具有相似的输出。距离度量:改算法首先计算测试数据与每个训练数据点之间的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离。例如:测试样例特征是 [0,0],样本集特征是 [1,2] 那么距离就是。原创 2024-01-04 19:52:55 · 995 阅读 · 1 评论 -
Python Web --Django Web框架
我认为可以更加了解python,因为近一个月使用Python给我的感觉比较好,代码比较简单,比java简单很多,而且python自己管理内存,更多依赖于自身的垃圾回收机制。它是免费和开源的,有活跃繁荣的社区,丰富的文档,以及很多免费和付费的解决方案。Django 的构建 对标 spirngboot 其实差不多,springboot以其开箱即用,简单易用闻名世界,Django 也一样,可以迅速得构建一个RestFul API,非常简单,代码很少。已经启动并运行了一个 Django 开发环境。原创 2023-12-28 13:09:27 · 324 阅读 · 0 评论