《数学之美》---笔记004

第十三章:Google AK-47的设计者---阿米特·辛格博士

  1. 一个好的算法应该像AK-冲锋枪那样,简单、有效、可靠性好而且容易读懂(或者说易操作)
  2. 辛格做事的哲学,即先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业上成功的秘诀之一(先开始行动,在慢慢优化完善),许多人失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。
  3. 辛格一直坚持寻找简单有效的解决方案,因为他奉行简单的哲学。而很多人倾向于低估简单方法的有效性
  4. 辛格坚持选择简单方案的另一个原因是容易解释每一个步骤和方法背后的道理,这样便于出了问题差错debug,而且容易找到进后改进的目标。
  5. 说不清楚的改进,即使有效也不会采用,因为这样将来肯能是个隐患。
  6. 其次辛格博士坚持每天都要分析一些搜索结果不好的例子。

解决问题思路:简单有效,不断完善优化

第十四章:余弦定理和新闻分类

  1. 新闻的分类很大程度上依赖余弦定理
  2. 新闻的特征向量:计算机的本质是算,那么为了让计算机能够“算”新闻,就要要求我们先把文字的新闻变成一组可以计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性。
  3. 和新闻主题有关的那些实词频率高,TF-IDE值就很大
  4. 比如词汇表中有64000个词,某一篇特定的新闻,对应的64000个词的TF-IDE值,这样一来就组成了一个64000维的向量,这就是着篇新闻的特征向量。
  5. 计算另一篇新闻的特征向量,这两篇新闻的特征向量对应着这两篇新闻的主题,如果要计算他们的相似性即接近程度,那么就要用到余弦定理了,即计算他们的特征向量的夹角,夹角越小,距离越近,相反夹角越大,距离越远。
  6. 余弦定理:夹角的余弦越小,夹角越大,两条新闻越不相关;当两个向量正交时(90°),夹角余弦等于0,说明完全不相关
  7. 所以我们需要培养自己倾向于使用机器来代替人工来完成任务,虽然短期内需要做一些额外的工作,但是从长远来看可以节省很多时间和成本
  8. 我们需要对标题和重要位置的词进行额外加权,以提高文本分类的准确性
  9. 大数据量时的余弦计算:1、分母部分不需要重复计算;2、计算两个向量的内积时,只需要考虑向量中的非零元素;3、可以删除虚词,如是、的等等。---简单原理,降低计算量

解决问题思路:问题抽象化,简单有效化减少运算量

第十五章:矩阵运算和文本处理中的两个分类问题

  1. 文本和词汇的矩阵:基础线性代数,新闻分类使用余弦定理,从理论上来讲这种算法非常漂亮,但是因为要对所有的新闻做两两计算,而且要进行多次迭代,运算量大耗时长,这种情况下可以利用矩阵运算中的奇异值分解(SVD)算法,可以减少运算量。
  2. 第一步:需要一个大矩阵=A文本*词,文本*词的矩阵;第二步:奇异值分解A=X*B*Y,
  3. 在实际应用中,可以先进行奇异值分解得到粗分类结果;在利用计算向量的余弦方法,在粗分类的基础上得到精确分类

问题解决思路:如何有效减少数据运算量

第十六章:信息指纹及其应用

  1. 在防止重复下载同一个网页时,我们需要在散列表中记录已访问过的网址(URL),但是一般一个网址长度均在100字符以上,如果这样存储,1、存储量大;2、查找效率低,为了解决这个问题我们把URL当作一个整理,将其映射到128位的二进制,也就是16字节的整数,就称作该网址的信息指纹;
  2. 网址的信息指纹计算方法分两步1、将这个字符串看作一个特殊的很长的整数;2、一个产生信息指纹的关键算法:伪随机数产生器算法PRNG
  3. 互联网上用于加密的伪随机数产生器常用算法由MD5和SHA-1
  4. 两个集合的判定,将整个集合当作一个整体(系统论),计算其信息指纹
  5. 判定集合基本相同,从集合中取出一部分构成一个特征集合,然后计算这个特征集合的信息指纹,这样做减少运算量,计算速度还快。注意他解决问题的思路
  6. 相识哈希(Simhash)第一步:扩展;第二步:收缩;【先分后合】

第一步扩展:假设一个8位二进制的指纹扩展称8个实数,首先计算第一个词的指纹,接着根据第一个词处理第二个词的指纹(迭代),依次得到第八个词的指纹;

第二步收缩:根据第八个词的指纹,根据算法我们得到这篇文章的8位相似哈希指纹。

  1. 如果两个网页的相似哈希相差越小,这两个网页的相似性就越高;如果两个网页的相似哈希不同,但是相差很小,那么对应网页内容重复的可能性大于80%。

问题解决思路:复杂问题先分解,分解后在整合,始终是一个整体或者说集合,系统论

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值