zhihua_oba
码龄10年
关注
提问 私信
  • 博客:428,743
    社区:1
    428,744
    总访问量
  • 23
    原创
  • 1,884,259
    排名
  • 219
    粉丝
  • 0
    铁粉

个人简介:NLP算法工程师

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-07-02
博客简介:

zhihua_oba的博客

查看详细资料
个人成就
  • 获得335次点赞
  • 内容获得46次评论
  • 获得1,196次收藏
创作历程
  • 2篇
    2020年
  • 1篇
    2018年
  • 20篇
    2017年
成就勋章
TA的专栏
  • 算法基础
    2篇
  • 神经网络模型
    1篇
  • 机器学习实战
    19篇
  • 求职相关
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflownlp
创作活动更多

开源数据库 KWDB 社区征文大赛,赢取千元创作基金!

提交参赛作品,有机会冲刺至高2000元的创作基金,快来参与吧!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

CRF应用以及CRF++

主要内容问题描述 模型训练 样本格式 模板文件 训练参数 总结之前我们简单介绍了CRF的背景知识、基本原理、应用场景。接下来我们主要介绍通过CRF来解决实际问题的工具CRF++。CRF++是工业应用比较广泛的条件随机场的开源工具。安装包下载地址:CRF++安装包,官方使用教程:CRF++教程。本文主要通过序列标注任务中的实体识别(Named Entity Recogniti...
原创
发布博客 2020.04.02 ·
1071 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

条件随机场(Conditional Random Field, CRF)

主要内容背景知识 隐马尔科夫模型 马尔可夫随机场 条件随机场 条件随机场工程应用一、背景知识生成模型与判别模型。生成模型(Generative Model)对X和Y的联合概率分布建模,然后通过贝叶斯公式求得,最后选取使得最大的,即。判别模型(Discriminative Model)直接对条件概率建模,训练模型的过程中学习得到参数,预测过程根据得到的参数和输入X,得到输出Y。生成...
原创
发布博客 2020.03.28 ·
2344 阅读 ·
5 点赞 ·
1 评论 ·
5 收藏

机器学习中常见的优化方法:梯度下降法、牛顿法拟牛顿法、共轭梯度法、拉格朗日乘数法

机器学习中常见的优化方法:梯度下降法、牛顿法拟牛顿法、共轭梯度法、拉格朗日乘数法主要内容 梯度下降法牛顿法拟牛顿法共轭梯度法拉格朗日乘数法  许多机器学习算法,往往建立目标函数(损失函数+正则项),通过优化方法进行优化,根据训练样本训练出满足要求的模型。常见的优化方法有梯度下降法、牛顿法拟牛顿法、共轭梯度法、拉格朗日乘数法等等。一、梯度下降法   梯度下降法(...
原创
发布博客 2018.05.03 ·
3155 阅读 ·
5 点赞 ·
0 评论 ·
19 收藏

正则化(regularization): 期望风险、经验风险、结构风险、L0范数、L1范数、L2范数

正则化(regularization):期望风险、经验风险、结构风险、L0范数、L1范数、L2范数主要内容 期望风险、经验风险、结构风险正则项:L0范数、L1范数、L2范数关于L1正则化与L2正则化的问题整理一、期望风险(expected risk)、经验风险(empirical risk)、结构风险(structural risk)   1、期望风险(expected risk)
原创
发布博客 2017.12.06 ·
5735 阅读 ·
9 点赞 ·
0 评论 ·
38 收藏

经验误差与泛化误差、偏差与方差、欠拟合与过拟合、交叉验证

经验误差与泛化误差、偏差与方差、欠拟合与过拟合、交叉验证主要内容 经验误差与泛化误差偏差与方差欠拟合与过拟合交叉验证一、经验误差(训练误差)与泛化误差   经验误差(训练误差):模型在训练集上的误差称为“经验误差”(empirical error)或者“训练误差”“training error”。   泛化误差:模型在新样本集(测试集)上的误差称为“泛化误差”(generalizat
原创
发布博客 2017.12.01 ·
18106 阅读 ·
30 点赞 ·
0 评论 ·
119 收藏

机器学习常见评价指标:AUC、Precision、Recall、F-measure、Accuracy

机器学习常见评价指标:AUC、Precision、Recall、F-measure、Accuracy主要内容 AUC的计算Precision、Recall、F-measure、Accuracy的计算1、AUC的计算   AUC是一个模型评价指标,用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写,而这条“Curve(曲线)”就是ROC曲线。
原创
发布博客 2017.11.30 ·
46811 阅读 ·
14 点赞 ·
0 评论 ·
70 收藏

隐马尔可夫模型(Hidden Markov Model,HMM)

隐马尔可夫模型(Hidden Markov Model,HMM)主要内容 HMM简介HMM观测序列、状态序列、三要素HMM三个问题及其对应算法HMM应用1、HMM简介   隐马尔可夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程。属于生成模型(什么是生成模型?什么是判别模型?这里不过多介绍,想了解的童鞋百度会给你答案)。2、HMM观测序列、状态序列、三
原创
发布博客 2017.11.29 ·
1404 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

机器学习岗面试总结

机器学习岗面试总结  本人渣硕一枚,将秋招面试情况做一点简单的汇总,希望各位大佬批评指正。   首先谈一下算法岗,个人认为算法岗是一个大体的统称,里边包括了数据挖掘岗、机器学习岗、深度学习岗、基础研究岗等等。不同的岗位对求职者的“软硬件”要求略有不同,但总体上是大同小异。面试这些岗位,求职者至少需要哪些能力呢?这里进行简单的汇总,希望各位大佬批评指正:一、编码能力、基础算法与数据结构   一般面
原创
发布博客 2017.10.24 ·
3151 阅读 ·
11 点赞 ·
2 评论 ·
31 收藏

k-means算法详解

k-means算法详解主要内容 k-means算法简介k-means算法详解k-means算法优缺点分析k-means算法改进算法k-means++1、k-means算法简介   k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,...
原创
发布博客 2017.06.28 ·
32843 阅读 ·
9 点赞 ·
1 评论 ·
67 收藏

EM算法(Expectation Maximization Algorithm)详解

EM算法(Expectation Maximization Algorithm)详解主要内容 EM算法简介预备知识 极大似然估计Jensen不等式EM算法详解 问题描述EM算法推导EM算法流程EM算法优缺点以及应用1、EM算法简介   EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称...
原创
发布博客 2017.06.27 ·
112210 阅读 ·
108 点赞 ·
25 评论 ·
455 收藏

Apriori算法详解

Apriori算法详解主要内容 关联分析Apriori算法原理生成频繁项集生成关联规则FP-Growth算法  消费者在商店都买物品时,通过查看哪些商品经常在一起购买,可以帮助商店了解消费者的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理等环节。从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联...
原创
发布博客 2017.06.12 ·
5498 阅读 ·
3 点赞 ·
1 评论 ·
8 收藏

PageRank算法详解

PageRank算法详解主要内容 PageRank算法简介PageRank算法详解 基本PageRank模型终止点问题陷阱问题解决终止点问题和陷阱问题1、PageRank算法简介   PageRank,网页排名,又称网页级别或佩奇排名,是一种根据网页间相互超链接进行网页排名的技术,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关
原创
发布博客 2017.06.08 ·
9075 阅读 ·
16 点赞 ·
2 评论 ·
31 收藏

AdaBoost(Adaptive Boosting)算法详解

AdaBoost(Adaptive Boosting)算法详解主要内容 AdaBoost算法详解AdaBoost算法实例讲解1、AdaBoost算法详解   假设有一位患者,存在某些症状。患者选择咨询多位医生,而不是一位。假设患者根据医生先前的诊断准确率,对每位医生的诊断赋予一个权重。然后,这些加权诊断的组合作为最终的诊断。这就是提升的基本思想。在提升(boosting)方法中,权重赋予每
原创
发布博客 2017.06.01 ·
5432 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

支持向量机(Support Vector Machine,SVM)详解

支持向量机(Support Vector Machine,SVM)详解主要内容支持向量机简介数据线性可分的情况 间隔与支持向量对偶问题SMO算法数据非线性可分的情况1、支持向量机简介   支持向量机(support vector machine)是一种二分类模型,其基本模型定义是特征空间上的间隔最大的线性分类器(当采用线性核时),即支持向量机的学习策略是间隔最大化,...
原创
发布博客 2017.05.31 ·
19515 阅读 ·
7 点赞 ·
2 评论 ·
33 收藏

朴素贝叶斯分类算法

朴素贝叶斯分类算法主要内容 贝叶斯定理朴素贝叶斯分类算法详解朴素贝叶斯分类算法实例讲解拉普拉斯平滑1、贝叶斯定理   贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)P(A|B)P(A|B)的情况下如何求得P(B|A)P(B|A)P(B|A)。其中,P(A|B)P(A|B)P(A|B)...
原创
发布博客 2017.05.17 ·
4540 阅读 ·
6 点赞 ·
0 评论 ·
10 收藏

决策树之CART(分类回归树)详解

决策树之CART(分类回归树)详解主要内容 CART分类回归树简介CART分类回归树分裂属性的选择CART分类回归树的剪枝1、CART分类回归树简介   CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。如果待预测结果是离散型数据,则CART生成分类决策树;如果待预测结果是连续型数据,则CART生成回归决策树。数据对象的属性特征为离散型或连续型,并不是区别分类树...
原创
发布博客 2017.05.15 ·
66055 阅读 ·
38 点赞 ·
6 评论 ·
246 收藏

决策树之C4.5算法详解

决策树之C4.5算法详解主要内容C4.5算法简介分裂属性的选择——信息增益率连续型属性的离散化处理剪枝——PEP(Pessimistic Error Pruning)剪枝法缺失属性值的处理C4.5算法流程C4.5算法优缺点分析1. C4.5算法简介 C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和忧化。C4.5算法对ID3算法主要做了一下几点改进: (1)
原创
发布博客 2017.04.24 ·
57973 阅读 ·
36 点赞 ·
1 评论 ·
241 收藏

决策树之ID3算法及其Python实现

决策树之ID3算法主要内容 决策树背景知识决策树一般构建过程决策树分裂属性的选择ID3算法流程及其优缺点分析ID3算法Python代码实现1. 决策树背景知识   决策树是数据挖掘中最重要且最常用的方法之一,主要应用于数据挖掘中的分类和预测。决策树是知识的一种呈现方式,决策树中从顶点到每个结点的路径都是一条分类规则。决策树算法最先基于信息论发展起来,经过几十年发展,目前常用的算法有:
原创
发布博客 2017.04.21 ·
8131 阅读 ·
6 点赞 ·
1 评论 ·
82 收藏

k-近邻算法(k-NN)及其Python实现

k-近邻算法(k-NN)及其Python实现算法思想:   给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。算法流程:计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类...
原创
发布博客 2017.04.19 ·
695 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Windows系统下,Setuptools、Numpy、Matplotlib的安装

#Windows系统下,Setuptools、Numpy、Matplotlib 的安装主要内容: Setuptools 的安装Numpy 的安装Matplotlib 的安装1、Setuptools 的安装     easy_install:当需要安装第三方 python 包时,一般会用到 easy_install 命令。easy_install 是 setuptools 包里的一个命令
原创
发布博客 2017.04.18 ·
1079 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多