20190418

Grace_yanyanyan

于 2019-05-09 12:04:00 发布

阅读量130

点赞数

分类专栏：学习笔记文章标签：语音识别

本文链接：https://blog.csdn.net/yj13811596648/article/details/89375388

版权

学习笔记专栏收录该内容

68 篇文章 1 订阅

订阅专栏

以下为阅读《TensorFlow：实战Google深度学习框架》第二版，的笔记

什么是图像分类的Top-5错误率？
top1就是你预测的label取最后概率向量里面最大的那一个作为预测结果，你的预测结果中概率最大的那个类必须是正确类别才算预测正确。而top5就是最后概率向量最大的前五名中出现了正确概率即为预测正确。
ILSRVRC（ImageNet 图像分类大赛）比赛设置如下：
1000类图像分类问题，训练数据集126万张图像，验证集5万张，测试集10万张（标注未公布）。评价标准采用 top-5 错误率——即对一张图像预测5个类别，只要有一个和人工标注类别相同就算对，否则算错。
什么是机器学习的mAP（mean Average Precision）
https://blog.csdn.net/gw1994/article/details/79616567
https://blog.csdn.net/hysteric314/article/details/54093734
查全率（也叫召回率，Recall）/查准率（Precision）
准确率P是评估你预测的准不准（看预测列），而召回率R是看你找的全不全(看实际行)。如果处理平衡数据集用这些性能指标还好说，但是一旦你的数据集不平衡，那么这些指标可参考的价值就不那么具备参考性了。举个例子：对于一个二分类问题，如果其中90%是正样本，只有10%是负样本的话，而我的模型就是全部输出为正样本的分类器，那么准确率依然高达90%，但是这样并没有意义。所以提出了AP的概念。
Average Precision
所谓的AP，其实就是平均准确率。这里的平均是相对于不同验证集而言的。
mean Average Precision
所谓的mAP，其实就是对m个类别的AP取平均值，对于上文讲的猫咪分类器，其实就是一个二分类器，它的mAP就等于正样本的准确率与负样本的准确率的平均值，多分类任务也可以如法炮制。
相比于P,R，mAP这个性能指标对于数据不平衡问题就靠谱很多。还是拿之前举的例子来说：90%的正样本，10%的负样本，如果采用全部输出为正的分类器，那么P正=0.9,P负=0,而mAP=0.45.
微软在语音翻译领域的突破：“原声”实时将英语转为汉语
这是2012年微软亚洲研究院（MSRA，Microsoft Reaseach Asia,）在21世纪计算大会上的同声传译演示。那个总裁边说英语，自己的屏幕上边出英语字幕，旁边的屏幕也马上出现汉语翻译的文字字幕。据说已经被用到了skype网络电话中。
word embedding，词嵌入，也可以被翻译为单词向量，是对现实世界的某种事务建模的一种方法，为的是能够让计算机识别并处理。
同样的数据使用不同的表达方式会极大的影响解决问题的难度，一旦解决了数据表达和特征提取，很多人工智能的问题也就被解决了90%
深度学习的核心问题之一就是自动的将简单的特征组合成更加复杂的特征，并使用这些组合特征解决问题。自动学习特征和任务之间的关系，自动从简单的特征提取更加复杂的特征。深度学习可以一层一层的将简单的特征逐步转化成更加复杂的特征，从而使得不同类别的图像变得可分。
目前科学家对人类大脑的学习机制的理解还不足以为当下的深度学习模型提供指导
深度学习基本是深层神经网络的代名词
感知机是首个可以通过样例数据来学习特征权重的模型，但只能解决线性可分问题，不能解决异或问题
截止2017.12月，谷歌翻译产品中已经有97种语言是由基于深度学习的翻译算法完成
情感分析最核心的问题就是从一段自然语言中判定作者对评价主体是好评还是坏评。用户对服务或者是产品的评价可以提高满意度，金融行业分析用户对不同产品和公司的态度可以对投资者选择提供帮助，对社交网络twitter上的推文进行情感分析可以指导证券交易，对选民进行情感分析来进行政治民意调差。
在ubuntu中使用nvidia-smi来检查GPU的状态参数：here
根据这个教程在ubuntu中安装kaldi：here
如何解决ubuntu下sudo命令不能用？here
large vocabulary continuous speech recognition (LVCSR)大词汇量连续语音识别
kaldi中的FST是什么？有限状态转换器FST(finite-state transducer)
VTLN：VTLN是Vocal Tract Length Normalisation 的简称。中文为：声道长度归一化
LDA： LDA的全称是Linear Discriminant Analysis（线性判别分析），是一种supervised learning。

import tensorflow as tf

a = tf.constant([1.0,2.0],name='a')
b = tf.constant([2.0,3.0],name='b')

result = a+b

sess = tf.Session()
sess.run(result)

结果为：array([3., 5.], dtype=float32)

print(result)

结果为：Tensor(“add_3:0”, shape=(2,), dtype=float32)
表示张量result是节点add_3的第一个输出，编号从0开始，shape信息表示张量result是一维的，一维的张量就是数组，数组长度为2，张量的第三个属性，类型type。

Grace_yanyanyan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录