人工智能算法总结(2)

1.模型的选择与调优

a. 交叉验证

目的: 使模型更加准确可靠

原理: 将训练集数据分成 训练集 + 验证集 : 依次更换验证集来验证模型的准确度

b. 超参数网格搜索

原理:预先设置几组参数, 制作出最优的模型

c. api:

from sklearn.model_selection import GridSearchCV

初始化:

参数

i. 估计器

ii.param_grid =

{

"超参数" : [预设的超参数值]

}

iii. cv 交叉验证

2. 特征抽取:

a. 根据值出现的次数抽取

i. api:

from sklearn.feature_extraction.text import CountVectorizer

方法:

fit: 制定转换标准

transform: 转换数据

fit_transform : fit + transform

get_feature_names: 查看特征抽取的值

toarray: 将sparse矩阵,转换为one-hot模式

ii. 抽取原理:

将词语作为特征, 统计词语出现的次数

iii. 中文文章的抽取

import jieba

jieba.cut()

b. tfidf 文章抽取

i. tfidf 定义:

tf: 词频

idf: 逆文档频率

tfidf = tf * idf

ii. api:

from sklearn.feature_extraction.text import TfidfVectorizer

方法:

fit: 制定转换标准

transform: 转换数据

fit_transform : fit + transform

get_feature_names: 查看特征抽取的值

toarray: 将sparse矩阵,转换为one-hot模式

3. 朴素贝叶斯算法

a. 概率论:

i. 联合概率: 两件事情同事发生的概率

p(a, b) = p(a) * p(b)

ii.条件概率:

p(a|b)

b.贝叶斯公式

p(科技|word1, word2... wordn)

||

p(w1,w2...wn|科技) * p(科技)

---------------------------

p(w1,w2....wn)

c. 拉普拉斯平滑系数

a = 1

条件概率: p = (F + a) / (FN + am)

d. api:

from sklearn.naive_bayes import MultinomialNB

估计器的方法:

fit

predict

score

4. 线性回归算法原理:

a. 定义:

自变量(特征值) 与 因变量(目标值) 建立的 函数关系

b. 通式

h(w) = w1x1 + w2x2 + w3x3 +....+ wnxn + b

c. 求解方式:

i. 正规方法:

1). 直接计算得到损失最低的点

2). api:

from sklearn.linear_model import LinearRegression

ii. 梯度下降

1). 根据学习率与学习方向,一步一步,找到最低的点

c. 损失计算:

平方差损失:

------------------------

√ (y_true - y_predict) ^2

api:

from sklearn.metrics import mean_squared_error

mean_squared_error(y_ture, y_predict)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小徐的记事本

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值