1/8s延时-CSDN博客

原创西瓜书第一章

基本概念概览机器学习的目标是使学得的模型能很好地适用于"新样本"，而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本样本空间的计算：20个属性，10条示例，样本空间为10^20阅读材料：第一本机器学习专门性教材：Mitchell, T. (1997). Machine Learning. Mc Graw Hill, New York, NY出色的入门读物：Duda,R.O.,P.E.Hart,and D.G.Stork.(20

2021-08-17 22:23:47 333

原创 Datawhale 5 月组队学习笔记（五）：异常值检测

基础知识

2021-05-11 22:53:51 194

原创 Datawhale 1月组队学习笔记（五）：数据分析Task5，作者信息关联

1. 任务说明学习主题：作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论文作者知识图谱、图关系挖掘2. 数据处理步骤将作者列表进行处理，并完成统计。具体步骤如下：将论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系；3. 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见，如

2021-01-25 22:13:01 234

原创 Datawhale 1月组队学习笔记（四）：数据分析Task4，使用论文标题完成类别分类

任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等；1.导入相关包import seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式，匹配字符串的模式import requests #用于网络连接，发送网络请求，使用域名获取对应信息import json #读取数据

2021-01-22 22:22:27 232

原创 Datawhale 1月组队学习笔记（三）：数据分析Task3

1.导入相关包

2021-01-19 22:40:04 197

原创 2021-01-16

任务说明任务主题：论文作者统计，统计所有论文作者出现评率Top10的姓名；任务内容：论文作者的统计、使用 Pandas 读取数据并使用字符串操作；任务成果：学习 Pandas 的字符串操作；读取数据由于数据过大，为方便运行，仍只读入100行from bs4 import BeautifulSoupimport reimport requestsimport jsonimport pandas as pdimport matplotlib.pyplot as pltwith ope

2021-01-16 22:27:26 128

原创 Datawhale 12月组队学习笔记（一）：数据分析Task1

准备seaborn（画图）、BeautifulSoup（爬取arxiv）、re（正则表达式）、requests（网络连接）、json（读json格式的数据）、pandas、matplotlib.pyplot（画图）import seaborn as sns from bs4 import BeautifulSoup import re import requests import json import pandas as pd import matplotlib.pyplot as p.

2021-01-14 18:19:51 191

原创 Datawhale 12 月组队学习笔记（十一）：pandas综合练习

练习四：import pandas as pddf = pd.read_table("benchmark.txt",header=None)pat1 = 'Benchmarking (\w+)(\w+) precision type (\w+)'pat2 = '(\w+) model average (\w+) time : (.+)ms'bench_info=df[0].str.extract(pat1).rename(columns={0:'type_x', 1:'precision', 2:

2021-01-13 23:48:26 149

原创 Datawhale 12 月组队学习笔记（十）：pandas时间序列

思维导图更新

2021-01-10 23:56:04 121

原创 Datawhale 12 月组队学习笔记（九）：pandas分类数据

思维导图更新

2021-01-07 22:23:43 197

原创 Datawhale 12 月组队学习笔记（九）：pandas正则化

思维导图更新

2021-01-06 22:39:35 315

原创 Datawhale 12 月组队学习笔记（八）：pandas缺失值

思维导图更新

2021-01-03 21:58:08 110

原创 Datawhale 12 月组队学习笔记（七）：pandas综合练习

思维导图整理练习一：企业收入的多样性import pandas as pdimport numpy as npdf1 = pd.read_csv('company.csv')df2 = pd.read_csv('company_data.csv')print(df1.head())print(df2.head())print(df1['证券代码'].sort_values().unique())# 排序查看df1证券代码print(df2['证券代码'].sort_values().

2021-01-01 23:34:50 306

原创 Datawhale 12 月组队学习笔记（六）：pandas连接

pandas思维导图扩充

2020-12-29 23:39:36 112

原创 Datawhale 12 月组队学习笔记（五）：pandas变形

pandas思维导图扩充练习一、现有一份关于美国非法药物的数据集，其中 SubstanceName, DrugReports 分别指药物名称和报告数量：将数据转为如下的形式：import numpy as npimport pandas as pddf = pd.read_csv('data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)print(df.head(3))d

2020-12-27 22:28:30 213

原创 Datawhale 12 月组队学习笔记（四）：pandas分组

pandas 逻辑图补充

2020-12-25 19:39:34 130

原创 Datawhale 12 月组队学习笔记（三）：pandas索引

思维导图更新

2020-12-22 23:20:46 170

原创 Datawhale 12 月组队学习笔记（二）：pandas常用基本函数

pandas思维导图扩充：作业：import pandas as pdimport numpy as npdf = pd.read_csv('data/pokemon (2).csv')print((df[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']].sum(1) != df['Total']).mean())# 0.0对于 # 重复的妖怪只保留第一条记录，解决以下问题：dp_dup = df.drop_d

2020-12-19 21:13:04 288 1

原创 Datawhale 12 月组队学习笔记（一）：预备知识

numpy思维导图补充pandas基础知识导图

2020-12-16 21:32:04 129

原创 Datawhale 11 月组队学习笔记（五）：大作业

大作业导入鸢尾花数据import numpy as npimport pandas as pdfrom pandas import plottingimport matplotlib.pyplot as pltplt.style.use('seaborn')import seaborn as snssns.set_style("whitegrid")from sklearn.linear_model import LogisticRegressionfrom sklearn.m

2020-12-01 22:38:19 187

原创 Datawhale 11 月组队学习笔记（四）：线性代数

线性代数练习计算数组a和数组b之间的欧氏距离import numpy as npa = np.array([1, 2, 3, 4, 5])b = np.array([4, 5, 6, 7, 8])d = np.linalg.norm(a - b)print(d)#6.708203932499369给定矩阵A和数组吧，求解线性方程组：import numpy as npa = np.array([[1, -2, 1], [0, 2, -8], [-4, 5, 9]])b =

2020-11-29 14:50:17 133

原创 Datawhale 11 月组队学习笔记（三）：统计相关

统计相关习题计算给定数组中每行的最大值import numpy as npnp.random.seed(100)a = np.random.randint(1, 10, [5, 3])print(a)print('每行最大值为：')print(np.amax(a, axis=1))#[[9 9 4] [8 8 1] [5 3 6] [3 3 3] [2 1 9]]每行最大值为：[9 8 6 3 9]计算数组的元素最大值与最小值之差（极值）import numpy as

2020-11-27 23:35:35 169

原创 Datawhale 11 月组队学习笔记（二）：随机抽样

随机抽样二项分布（binomial）野外正在进行9（n=9）口石油勘探井的发掘工作，每一口井能够开发出油的概率是0.1（p=0.1）。请问，最终所有的勘探井都勘探失败的概率？np.random.seed(20201124)n = 9p = 0.1size = 50000x = np.random.binomial(n, p, size)print(np.sum(x == 0) / size) # 0.3897plt.hist(x)plt.show()s = stats.binom.pm

2020-11-25 23:02:54 367

原创 Datawhale 11 月组队学习笔记（一）：输入与输出

Datawhale 11 月组队学习笔记（不同类型文件的输入和输出练习# 只打印或显示numpy数组rand_arr的小数点后3位import numpy as npnp.set_printoptions(precision=3)rand_arr = np.random.random([5, 3])print(rand_arr)# [[0.849 0.47 0.37 ] [0.842 0.728 0.06 ] [0.286 0.905 0.926] [0.283 0.443 0.8

2020-11-23 21:52:08 180 1

weixin_45943100的博客

原创西瓜书第一章

原创 Datawhale 5 月组队学习笔记（五）：异常值检测

原创 Datawhale 1月组队学习笔记（五）：数据分析Task5，作者信息关联

原创 Datawhale 1月组队学习笔记（四）：数据分析Task4，使用论文标题完成类别分类

原创 Datawhale 1月组队学习笔记（三）：数据分析Task3

原创 2021-01-16

原创 Datawhale 12月组队学习笔记（一）：数据分析Task1

原创 Datawhale 12 月组队学习笔记（十一）：pandas综合练习

原创 Datawhale 12 月组队学习笔记（十）：pandas时间序列

原创 Datawhale 12 月组队学习笔记（九）：pandas分类数据

原创 Datawhale 12 月组队学习笔记（九）：pandas正则化

原创 Datawhale 12 月组队学习笔记（八）：pandas缺失值

原创 Datawhale 12 月组队学习笔记（七）：pandas综合练习

原创 Datawhale 12 月组队学习笔记（六）：pandas连接

原创 Datawhale 12 月组队学习笔记（五）：pandas变形

原创 Datawhale 12 月组队学习笔记（四）：pandas分组

原创 Datawhale 12 月组队学习笔记（三）：pandas索引

原创 Datawhale 12 月组队学习笔记（二）：pandas常用基本函数

原创 Datawhale 12 月组队学习笔记（一）：预备知识

原创 Datawhale 11 月组队学习笔记（五）：大作业

原创 Datawhale 11 月组队学习笔记（四）：线性代数

原创 Datawhale 11 月组队学习笔记（三）：统计相关

原创 Datawhale 11 月组队学习笔记（二）：随机抽样

原创 Datawhale 11 月组队学习笔记（一）：输入与输出

空空如也

空空如也