zhourunan

IT小白

数据结构----冒泡排序

冒泡排序(Bubble Sort)一种交换排序。基本思想:两两比较相邻记录的关键字,如果反序则交换,直到没有反序的记录为止。以升序冒泡为例:每趟排序过程中通过两两比较相邻元素,将小的数字放到前面,大的数字放到后面。核心代码:void BubbleSort(int arr[],int size){ ...

2018-05-05 17:02:38

阅读数 4211

评论数 1

机器学习----十大经典算法(总)

一、C4.5算法C4.5是决策树算法ID3的改进,它继承了ID3 算法的优点,并用信息增益率选择划分属性,能处理非离散或不完整的数据。二、K均值(K-means)算法K-means是基于距离的聚类算法,师徒找出满足方差最小的K个聚类。三、支持向量机(SVM)SVM选择合适的核函数将低维空间中难以划...

2018-05-01 09:52:01

阅读数 876

评论数 1

机器学习----面试题目总结(二)

源自:微信公众号(人工智能头条)----阿里机器学习七面面经一面(现场面)由于现场面大部分原理都需要手写解释。监督学习非监督学习啥区别,word2vec 属于啥类型xgb,gbdt啥区别l1,l2正则原理、区别xgb中l1正则怎么用的python 中 list 底层怎么实现list dict有什么...

2018-04-24 15:37:48

阅读数 73

评论数 0

机器学习----面试题目总结(一)

以下题目来自:微信公众号(人工智能头条)你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类?假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。你如何阅读...

2018-04-24 15:33:52

阅读数 285

评论数 0

机器学习----基础知识

机器学习的特点:机器学习算法以数据和特征为基础,是数据驱动的科学;机器学习的目标是对数据进行预测与分析;机器学习以模型方法为中心,并利用统计学习的方法构建模型,并且利用构建好的模型对未知的数据进行预测和分类;机器学习是以概率论、统计学、信息论、计算理论、最优化以及计算机科学等多领域交叉的学科,因此...

2018-04-21 12:31:34

阅读数 213

评论数 0

数据结构----快速排序

快速排序(Quick Sort)是对冒泡排序的一种改进。基本思想:通过一趟排序将待排记录分割成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,再对两部分记录分别进行继续排序,使得整个记录有序。首先任选一个记录(通常选第一个记录)作为枢轴(或支点)privot。一趟快速排序的做法:附设两...

2018-03-19 23:17:06

阅读数 150

评论数 0

数据结构----排序

根据牛客网算法视频以及https://blog.csdn.net/c406495762/article/details/78979946总结。排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。排序分为内部排序和外部排序。若整个排序过程不需要访问外存便能完成...

2018-03-19 22:27:49

阅读数 136

评论数 0

二分查找总结

1.二分查找又称折半查找 2.优点:比较次数少;查找速度快;平均性能好 3.缺点:待查表为有序数组(若为无序数组,分成两份查找无意义,排序本身也耗费时间);插入删除困难(增删需要移动大量的节点) 4.思想: 在一个有序数组中,取数组的中间值与要查找的数进行比较; 若要查找的数等于中间值,...

2018-09-02 00:47:59

阅读数 152

评论数 0

最大子数组之和

一个整数数组中的元素有正有负,在该数组中找出一 个连续子数组,要求该连续子数组中各元素的和最大,这个连续子数组便被称作最大连续子数组。比如数组{2,4,-7,5,2,-1,2,-4,3}的最大连续子数组为{5,2,-1,2},最大连续子数组的和为5+2-1+2=8。问题输入就是一个数组,输出该数组...

2018-08-31 19:30:37

阅读数 81

评论数 0

句子/文档相似度计算

句子/文档相似度计算 1.计算两个句子的相似性 分词à列出所有词à计算词频à列出词频向量à两个向量的相似程度 通过夹角的大小,来判断向量的相似程度。夹角越小,代表越相似(夹角越小,余弦值越大) 2.计算两篇文档的相似性 使用特征选择(TF-IDF)算法,找出两篇文章的关键词; 每篇文章...

2018-07-24 21:42:25

阅读数 406

评论数 0

特征选择----TF*IDF

TF*IDF TF 称为词频,表示词在一篇文档中出现的频率=词在该文档中出现的次数 / 该文档中单词的总数---TF越大,表示该词对文档越重要 DF称为文档频率,一个词在多少篇文章中出现过 IDF 称为逆文档频率=Ln(总文档数/出现该次的文档数) 反映了一个词在所有文档中出现的频率,如果...

2018-07-24 21:40:18

阅读数 377

评论数 0

算法分析与设计----动态规划

动态规划的原理 基本思想:将待求问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。 基本要素: 最优子结构  重叠子问题 设计动态规划算法的步骤: 找出最优解的性质,并刻画其结构特征; 递归地定义最优值; 以自底向上的方式计算最优值; 根据计算最优值时得到的信...

2018-07-24 21:36:53

阅读数 98

评论数 0

机器学习----正则化

L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。 L0正则:模型参数中非零参数个数; L1正则:模型各参数绝对值之和; L2正则:模型各个参数的平方和的开方值。 L1和L2的区别: L1是模型各个参数的绝对值之和。L2是模型各个参数的平方和...

2018-07-24 21:34:45

阅读数 91

评论数 0

机器学习----过拟合和欠拟合

过拟合 (1)什么是过拟合? 模型学习能力太强,以至于把噪声数据的特征也学习到了,导致模型泛化能力下降,在训练集上表现很好,但是在测试集上表现很差。 (2)过拟合出现的原因: 训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度; 训练集和测试集特征分布不一致; 样本里...

2018-07-24 21:30:55

阅读数 113

评论数 0

C语言实现----快速排序

1.快速排序是一种交换排序 2.基本思想:         选取一个基准数;         然后将大于和小于基准的元素分别放置于基准数两边;         继续分别对按此方法分治基准数的两侧,直至整个序列有序。 3. 注意问题         基准数的选择(通常选取头元素或者尾元素...

2018-07-15 00:17:24

阅读数 4458

评论数 0

二分查找

1. 二分查找又称折半查找2. 优点:            比较次数少            查找速度快            平均性能好3. 缺点:            待查表为有序数组(若为无序数组,分成两份查找无意义,排序本身也耗费时间)            插入删除困难(增删需要移动...

2018-07-14 23:27:16

阅读数 34

评论数 0

Python下LDA的基础用法

""" 第一部分:载入数据 """ import numpy as np import lda import lda.datasets # document-term matrix X...

2018-07-12 00:11:42

阅读数 1361

评论数 0

华为历年笔试面试机考试题在线练习----输入一行字符,分别统计出包含英文字母、空格、数字和其它字符的个数。

#include <iostream> #include <string> using namespace std; int main(){ string str; while(getline(...

2018-07-08 16:34:16

阅读数 83

评论数 0

华为历年笔试面试机考试题在线练习----取近似值

题目描述写出一个程序,接受一个正浮点数值,输出该数值的近似整数值。如果小数点后数值大于等于5,向上取整;小于5,则向下取整。输入描述:输入一个正浮点数值输出描述:输出该数值的近似整数值示例1输入复制5.5 输出复制6#include<stdio.h> i...

2018-07-07 23:12:56

阅读数 236

评论数 0

华为历年笔试面试机考试题在线练习----提取不重复的整数

题目描述输入一个int型整数,按照从右向左的阅读顺序,返回一个不含重复数字的新的整数。输入描述:输入一个int型整数输出描述:按照从右向左的阅读顺序,返回一个不含重复数字的新的整数示例1输入复制9876673输出复制37689#include<stdio.h&...

2018-07-07 23:02:38

阅读数 300

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭