机器学习
文章平均质量分 65
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
机器学习模型在线更新【多线程+线程锁】实现
多线程不间断更新模型线程锁在线机器学习定时更新迭代式计算(flink听来的术语,还没实现)原创 2021-02-04 00:22:16 · 1106 阅读 · 1 评论 -
Python相似度计算【大总结】
1、位运算2、集合运算3、编辑距离4、欧式距离和余弦距离5、TF-IDF文本相似度6、基于词向量的余弦相似度7、最长公共子串8、最长公共子序列9、从属关系10、相关系数原创 2018-07-16 18:36:21 · 14851 阅读 · 1 评论 -
标注数据类型及对应的监督学习方案
具有大量准确标注数据具有小量准确标注数据基于规则的数据增强筛选高概率的数据增强图像数据增强逆离散化or上采样迁移学习数据含有标注,但与业务需求不完全相符标注粒度过粗标注元数不同标注数据含噪音无标注数据半监督学习方案无监督学习方案文本数据结构化文本数据非结构化文本数据半结构化文本数据原创 2020-09-02 10:19:47 · 967 阅读 · 1 评论 -
我用程序求解2020广东高考理数压轴题
2020广东理数第21题【函数】已知 f(x)=ex+ax2−xf(x)=e^x+ax^2-xf(x)=ex+ax2−x(1)当 a=1a=1a=1 时,论 f(x)f(x)f(x) 单调性(2)当 x≥0x \geq 0x≥0 时,KaTeX parse error: Undefined control sequence: \geqx at position 6: f(x) \̲g̲e̲q̲x̲^3 + x...原创 2020-07-12 21:13:24 · 367 阅读 · 2 评论 -
给朋友讲什么是人工智能和机器学习
文章目录人工智能什么是人工智能什么不是人工智能机器学习人工智能什么是人工智能Artificial Intelligence(缩写AI)研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。计算机科学的一个分支通俗说就是:赋予机器学习能力,让机器像人一样聪明什么不是人工智能人工智能的应用有哪些技术应用图像识别人脸识别、指纹解锁、自动美颜…语音识别输入法语音转文字自然语言处理舆情分析、聊天机器人、机器翻译、搜索引擎、推荐原创 2020-06-13 15:11:29 · 395 阅读 · 0 评论 -
Python安装和使用XGBoost
文章目录安装使用安装本机环境操作系统:WIN10Python:3.7.4conda -v:4.8.2尝试conda install xgboost不行,然后用下面三个命令1、输入anaconda search -t conda xgboost来查找适合本机环境的包名,我的是anaconda/py-xgboost2、输入:anaconda show anaconda/py-xgbo...原创 2020-03-07 17:44:31 · 734 阅读 · 0 评论 -
Python非线性回归
文章目录样本其它失败尝试线性回归其它附录决策树回归结果随机森林回归结果https://blog.csdn.net/mcyJacky/article/details/88676157https://www.cnblogs.com/traditional/p/9445930.html样本其它失败尝试线性回归import matplotlib.pyplot as mpfrom skle...原创 2020-02-26 11:10:09 · 13474 阅读 · 4 评论 -
多标签(multilabel)分类
文章目录场景多标签二值化分类器各种分类器比较文本分类场景一部电影可以同时属于爱情片和科幻片一篇文章可以同时属于娱乐和汽车一张图片可以同时出现猫和狗。多标签二值化from sklearn.preprocessing import MultiLabelBinarizerY = [[], [1], [2], [1, 2]]print(MultiLabelBinarizer().fit...原创 2019-11-26 19:47:40 · 1897 阅读 · 0 评论 -
概率基础
encnmaximum likelihood estimate最大似然估计maximum a posteriori最大后验概率条件概率贝叶斯encnposteriori后验的;其次的posterior较后的;臀部posterity后裔;后代prior优先的;在前的priori先验的priority...原创 2019-11-05 11:08:13 · 1320 阅读 · 0 评论 -
Python【图解】样本不均衡问题及采样策略
文章目录样本不均衡的影响imblearn实施采样样本不均衡的影响from sklearn.datasets import make_blobsimport numpy as np, matplotlib.pyplot as mpfrom sklearn.linear_model import LogisticRegression# 负样本:正样本 = 1:1X, Y = make_b...原创 2019-04-29 16:33:45 · 2721 阅读 · 0 评论 -
sklearn降维
PCAfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCAimport matplotlib.pyplot as mp, seabornfrom mpl_toolkits import mplot3d# 加载数据iris = load_iris()X = iris.datay = i...原创 2018-12-13 20:21:54 · 650 阅读 · 0 评论 -
sklearn模型调优与评估
文章目录原理K-fold cross-validation K折交叉验证代码实现完整示例交叉验证结果原理对原始数据进行分组,训练集(train_set),评估集(valid_set)和测试集(test_set),用训练集对分类器进行训练,再利用评估集来测试训练得到的模型,以选出最优参数组合及对应的模型(防止过拟合)K-fold cross-validation K折交叉验证from s...原创 2018-12-04 09:47:46 · 1697 阅读 · 0 评论 -
图解Python逻辑回归:调包实现+徒手实现
logistic regression逻辑回归线性代数矩阵梯度下降原创 2018-08-03 23:53:31 · 1979 阅读 · 0 评论 -
sklearn各聚类算法比较
数据读取import requests, re, pandas as pddef download(): url = 'https://blog.csdn.net/Yellow_python/article/details/81240395' header = {'User-Agent': 'Opera/8.0 (Windows NT 5.1; U; en)'} ...原创 2018-08-06 20:49:57 · 4797 阅读 · 0 评论 -
Python【图解】信息熵
文章目录简介公式举个栗子简介信息熵是随机事件不确定性的度量信息熵越大,不确定性越高公式H(X)=−∑i=1nP(xi)log2P(xi)=∑i=1nP(xi)log21P(xi)H(X) = - \sum_{i=1}^{n} P(x_i) \log_2 P(x_i) = \sum_{i=1}^{n} P(x_i) \log_2\frac{1}{P(x_i)}H(X)=−i=1∑n...原创 2018-10-10 22:01:16 · 4166 阅读 · 0 评论 -
Python【线性回归】
一元线性回归方法1:numpy.polyfit方法2:一元线性回归方法1:numpy.polyfitimport numpy as np, matplotlib.pyplot as mpxp = [0.8, 1.1, 1.9, 3.1, 3.3, 3.3, 4.0, 5.1, 4.9, 6.2]yp = [110, 120, 111, 140, 150, 1...原创 2018-07-27 01:01:36 · 4760 阅读 · 0 评论 -
sklearn详细总结
文章目录模型选择sklearn库1、分类(Classification)2、回归(Regression)3、聚类(Clustering)4、降维(Dimensionality reduction)5、模型选择与评估(Model selection and evaluation)6、数据预处理(Preprocessing)附录模型选择sklearn库1、分类(Classification)...原创 2018-11-24 20:41:44 · 752 阅读 · 0 评论 -
sklearn决策树
import pandas as pdfrom sklearn.tree import DecisionTreeClassifier# 创建样本dt = {'高': [1, 0, 1, 1, 1, 1, 0, 0, 0, 0], '富': [1, 1, 0, 0, 0, 0, 0, 0, 0, 0], '帅': [1, 0, 1, 0, 0, 0, 1, 1, 1, ...原创 2018-11-26 19:45:46 · 431 阅读 · 0 评论 -
sklearn支持向量机
from sklearn.datasets import make_circlesfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import SVCimport numpy as np, matplotlib.pyplot as mp# 创建随机样本、数据标准化X, y = make_circles(no...原创 2018-12-02 21:56:09 · 492 阅读 · 0 评论 -
sklearn【数据集】datasets
文章目录简介样本生成器make moonsmake circlesmake blobs样本加载波士顿房价数据集手写数字数据集附录简介sklearn内置数据集,分别是【Loaders】和【Samples generator】【Loaders】是可直接加载的数据集【samples generator】是生成数据的工具样本生成器make moonsfrom sklearn.datasets...原创 2018-12-01 21:51:05 · 2029 阅读 · 0 评论 -
sklearn各分类模型的比较
import numpy as np, matplotlib.pyplot as mpfrom sklearn.model_selection import train_test_split # 数据切分from sklearn.preprocessing import StandardScaler # 数据标准化from sklearn.datasets import make_mo...原创 2018-12-08 09:40:44 · 4400 阅读 · 0 评论