2018年04月_zhb1nk

12月 11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 nyoj4 ASCII码排序——STL

ASCII码排序时间限制：3000 ms | 内存限制：65535 KB 难度：2描述输入三个字符（可以重复）后，按各字符的ASCII码从小到大的顺序输出这三个字符。输入第一行输入一个数N,表示有N组测试数据。后面的N行输入多组数据，每组输入数据都是占一行，有三个字符组成，之间无空格。输出对于每组输入数据，输出一行，字符中间用一个空格分开。样例输入...

2018-04-30 22:41:44 220

原创 nyoj2 括号匹配问题——STL

括号配对问题时间限制：3000 ms | 内存限制：65535 KB 难度：3描述现在，有一行括号序列，请你检查这行括号是否配对。输入第一行输入一个数N（03[(])(])([[]()])样例输出NoNoYes*(vec.end()-2) 是vector数组中倒数第二个元素，这里的减号是位置的左移vector.back()是vec...

2018-04-30 22:13:26 233

原创 kNN & Grid search

kNN解决分类问题天然可以解决多分类问题思想简单，效果强大，但效率低下高度数据相关预测结果不具有可解释性维数灾难：纬度越高，“看似相近”两个点之间的距离越来越大（解决方法：降维）使用k近邻算法解决回归问题： KNeighborsRegressor样本raw_data_X = [[3.393533211, 2.331273381], ...

2018-04-30 22:11:43 977

原创鸢尾花数据集

鸢尾花数据集 load_iris()from sklearn import datasetsiris = datasets.load_iris() // iris是一个字典集Keys:>>>iris.keys()dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names']...

2018-04-30 22:11:19 3406

原创多项式回归

多项式回归通过增加样本数据的特征，之后依旧使用线性回归数据集import numpy as np import matplotlib.pyplot as pltx = np.random.uniform(-3, 3, size=100)X = x.reshape(-1, 1)y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1...

2018-04-30 22:11:00 964

原创 PCA

principal Component Analysis主成分分析是梯度分析法的一种应用主成分分析是一个非监督的机器学习算法主要用于数据的降维通过降维，可以发现更便于人类理解的特征其他应用：可视化；去噪1 目标1.1 找到目标轴找到让样本间间距最大的轴如何定义样本间间距？ —— 方差（Variance）方差：表示样本间成分的疏密程度 V...

2018-04-30 22:10:35 481 4

原创 Linear Regression

Linear Regression解决回归问题思想简单，实现容易许多强大的非线性模型的基础结果具有很好的可解释性蕴含机器学习中的很多重要思想1. 简单线性回归简单线性回归 : 样本的特征只有一个1.1目标目标中的函数称为损失函数，损失函数越小，模型越准确这个目标是典型的最小二乘法问题：最小化误差的平方1.2 最小二乘法...

2018-04-30 22:10:04 436

原创 Gradit-Descent

Gradit-Descent梯度下降法：不是机器学习算法是一种基于搜索的最优化方法作用：最小化一个损失函数题度上升法：最大化一个效用函数并不是所有函数都有唯一的极值点，此时找到的是一个局部最优解。线性回归中的损失函数具有唯一的最优解1.一维函数中的梯度下降法对一维函数来说：每取一个参数theta，损失函数值 J 都不同导数代表theta单位变化时，J 相应...

2018-04-30 22:09:38 268

原创数据归一化

数据归一化最值归一化解决方案：将所有的数据映射到同一尺度适用于分布有明显边界的情况；受outlier影响较大最值归一化：把所有数据映射到0-1之间 $$x_{scale}=\frac{x-x_{min}}{x_{max}-x_{min}}$$ x = np.random.randint(0, 100, 100) //0到100之间100个随机整数(x...

2018-04-30 22:09:01 726

原创 Numpy

NUMPY查询文档：np.random.normal? help(np.random.normal)nparr = np.array([i for i in range(10)])np.zeros(shape=(3,5),dtype=int)np.ones()Np.full(shape = (3,5) , full_value = 6.0)range[i ...

2018-04-30 22:08:02 284

2019蓝桥杯.zip

2019年蓝桥杯B组省赛C/C++试题，包括PDF文件、A-J题全部试题的图片、数据等。试题解析可以参考：https://blog.csdn.net/zhaohaibo_/article/details/88783978

2019-11-12

#class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’) #参数： #（1）对于K均值聚类，我们需要给定类别的个数n_cluster，默认值为8； #（2）max_iter为迭代的次数，这里设置最大迭代次数为300； #（3）n_init设为10意味着进行10次随机初始化，选择效果最好的一种来作为模型； #（4）init=’k-means++’ 会由程序自动寻找合适的n_clusters； #（5）tol：float形，默认值= 1e-4，与inertia结合来确定收敛条件； #（6）n_jobs：指定计算所用的进程数； #（7）verbose 参数设定打印求解过程的程度，值越大，细节打印越多； #（8）copy_x：布尔型，默认值=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。 #属性： #（1）cluster_centers_：向量，[n_clusters, n_features] # Coordinates of cluster centers (每个簇中心的坐标？？)； #（2）Labels_:每个点的分类； #（3）inertia_：float，每个点到其簇的质心的距离之和。

2018-01-26

python爬取淘宝商品信息

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for a in soup.find('tbody').children: if isinstance(a, bs4.element.Tag): tds = a('td') ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string]) def printUnivList(ulist, num): print("{:^10}\t{:^6}\t{:^6}\t{:^16}".format("排名","学校名称","地区","总分")) for i in range(num): u=ulist[i] print("{:^10}\t{:^6}\t{:^6}\t{:^16}".format(u[0],u[1],u[2],u[3]))