- 博客(53)
- 收藏
- 关注
原创 【文献学习】Credit Risk Modeling of Public Firms: EDF9
本文翻译并总结了EDF9文献的内容 https://www.moodys.com/web/en/us/insights/resources/2012-28-06-Public-EDF-Methodology.pdf
2024-08-28 23:00:37 1058
原创 Hive入门
Hive是Facebook开发并贡献给Hadoop开源社区的。它是建立在 Hadoop体系架构上的一层 SQL抽象,使得数据相关人 员使用他们最为熟悉的SQL语言就可以进行海量数据的处理、 分析和统计工作- Hive将数据存储于HDFS的数据文件映射为一张数据库表,以MapReduce作为计算引擎 (Hive on MR),并提供完整的sql查询功能- 由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建 的数据仓库也秉承了这些特性。
2024-03-23 20:31:39 892
原创 LC打怪录 数组array
definition: 一种线性表数据结构。它使用一组连续的内存空间,来存储一组具有相同类型的数据。如上图所示,假设数据元素的个数为 nnn,则数组中的每一个数据元素都有自己的下标索引,下标索引从 000 开始,到 n−1n - 1n−1 结束。数组中的每一个「下标索引」,都有一个与之相对应的「数据元素」。从上图还可以看出,数组在计算机中的表示,就是一片连续的存储单元。数组中的每一个数据元素都占有一定的存储单元,每个存储单元都有自己的内存地址,并且元素之间是紧密排列的。
2024-03-10 07:30:58 677
原创 LC打怪录 anagram difference
字典的键将是字符串的一个排序后的版本,而值将是原始字符串的列表,这些原始字符串排序后与键相同。每个值是一个列表,包含了一组字谜。这样,所有的字谜组都被作为子列表返回,形成一个列表的列表。添加到字典中,并将其值设置为一个列表,该列表仅包含当前字符串。将排序后的字符列表连接成一个新的字符串。这样,所有字谜都会被分组到同一个列表中。这个方法的返回值是一个列表的列表 (的字符的一个有序排列,将用作字典。),其中每个子列表包含了一组字谜。这表示找到了一个新的字谜组。代表列表中的一个字符串。是已存在字谜组的一部分。
2024-03-07 06:36:50 733
原创 LC打怪录 希尔排序Shell sort 912.排序数组
希尔排序本质上是对插入排序的一种优化,它利用了插入排序的简单,又克服了插入排序每次只交换相邻两个元素的缺点。它的基本思想是:将待排序数组按照一定的间隔分为多个子数组,每组分别进行插入排序。这里按照间隔分组指的不是取连续的一段数组,而是每跳跃一定间隔取一个值组成一组逐渐缩小间隔进行下一轮排序最后一轮时,取间隔为 1,也就相当于直接使用插入排序。但这时经过前面的「宏观调控」,数组已经基本有序了,所以此时的插入排序只需进行少量交换便可完成。
2024-03-06 09:41:48 403
原创 LC打怪录 插入排序 912.排序数组
将比当前数大的元素依次后移,然后把当前数放在最后一个比它大的数字的原位置。类似打扑克牌的时候,每次会把新摸的牌插入到已经排好序的牌里。从第2个元素开始遍历,和前面的数字比较。对从第2个元素开始每个数都进行以上操作。
2024-03-04 07:57:37 150
原创 LC打怪录 选择排序 215.Kth Largest Element in an Array
LC215 2024/03/03 6:35-8:15
2024-03-03 08:13:33 715
原创 DS Wannabe之5-AM Project: Measuring accuracy of classification model DS 30day int prep day24 (第一季完结)
想象一下,如果我们的祖母给我们发了一封非常友善的电子邮件告诉我们她烤了饼干,而我们的过滤器将其删除,那么我们会感到多么的悲伤!因此,在垃圾邮件模型中,假阳性远比假阴性更糟糕。换句话说,哪个更糟糕:将一个健康的患者错误地诊断为患病,还是将一个患病的患者错误地诊断为健康?假设当我们将一个患者诊断为健康时,我们会让他们回家休息而不给予治疗,当我们将一个患者诊断为患病时,我们会让他们接受更多的检测。然而,错误地诊断一个患病的人意味着一个患病的人将得不到治疗,他们的病情可能会恶化,并且可能会传染给其他许多人。
2024-02-25 13:35:25 967
原创 DS Wannabe Prep(2): how to code logistic regression in Python for ML Interviews day23
【代码】DS Wannabe Prep(2): how to code logistic regression in Python for ML Interviews day23。
2024-02-21 20:52:35 782
原创 DS Wannabe之5-AM Project: DS 30day int prep day20
Pix2Pix的核心是一个条件对抗网络,其中生成器尝试创建真实的图像,而判别器尝试区分真实的图像和生成器创建的图像。每个问题都涉及一个给定的情境,并提供了四个可能的后续情况,其中只有一个是合理的。与word2vec类似,它将单词对表示为向量,但不同之处在于pair2vec专注于学习词对之间的语义和语法关系的嵌入,例如("Paris", "France")和("Berlin", "Germany")之间的关系。生成器的任务是生成尽可能接近真实数据的新数据,而判别器的任务是区分生成的数据和真实数据。
2024-02-18 07:57:06 1080
原创 DS Wannabe之5-AM Project: DS 30day int prep day19
Example:潜在语义索引(Latent Semantic Indexing,简称LSI)是一种自然语言处理和信息检索技术,用于发现文本数据集中的潜在语义结构。LSI通过奇异值分解(Singular Value Decomposition,SVD)这种数学方法,将高维的词-文档矩阵降维到较低维的语义空间中,以揭示词语和文档之间的隐含关系。
2024-02-17 08:08:52 723
原创 DS Wannabe之5-AM Project: DS 30day int prep day18
NLP系统不仅能够处理文本中的基本语言学问题,如拼写和同音异字,还能深入挖掘文本的句法结构和丰富的语义信息,包括理解句子的组成、识别文本的主题和潜在语义关系,以及准确地处理词汇的多义性。这种综合性的系统在机器翻译、自动摘要、问答系统、情感分析等多个NLP应用领域都有着广泛的应用前景
2024-02-16 06:25:29 619
原创 DS Wannabe之5-AM Project: DS 30day int prep day17
ULMFit(Universal Language Model Fine-tuning for Text Classification,通用语言模型微调用于文本分类)是一种转移学习方法,专门应用于自然语言处理(NLP)领域。在2018年5月,Jeremy Howard和Sebastian Ruder发布了一篇论文,介绍了ULMFit,并探讨了在文本分类任务中使用预训练模型的好处。
2024-02-15 07:06:53 771
原创 DS Wannabe之5-AM Project: DS 30day int prep day14
skipping day14's content bcos i dont find them very impt
2024-02-14 06:22:07 435
原创 DS Wannabe之5-AM Project: DS 30day int prep day15
前向传播是神经网络中的一个过程,其中输入数据在网络的各层之间传递,从输入层开始,经过隐藏层,最终到输出层产生预测。在这个过程中,每一层的输出将成为下一层的输入,直到最终产生输出。文本挖掘是指从文本数据中提取有价值信息的过程。它涉及到信息检索、词性标注、情感分析、主题识别等多种技术。文本挖掘使我们能够从大规模的文本数据集中发现模式、趋势和关联,常用于社交媒体分析、市场情报、客户服务等领域。信息提取是自然语言处理的一个分支,它的目标是从非结构化文本数据中自动提取结构化信息。
2024-02-13 09:39:37 666
原创 DS Wannabe之5-AM Project: DS 30day int prep day13
time-series analysis tools
2024-02-12 07:38:32 675
原创 DS Wannabe之5-AM Project: DS 30day int prep day12
然而,测试误差开始下降后会在某一点开始再次上升,这是因为模型变得过于复杂,以至于开始学习到训练数据中的噪声,而不仅仅是潜在的模式。特征提取是将原始数据转换或压缩成新的特征集(可能减少了特征的维度),这些新的特征是原始特征的变换或组合,可能会改变原始特征的含义。在图的中间部分,训练误差和测试误差之间的差距最小,这通常是模型复杂度的“最佳点”,即模型既不过于简单也不过于复杂,能够很好地泛化到未见数据。F1分数是精确率和召回率的调和平均值,用于衡量模型的准确性和召回能力的平衡性,特别适用于类别不平衡的情况。
2024-02-12 07:02:46 808
原创 5-AM Project: day8 Practical data science with Python 4
EDA and visualization libraries in PythonPerforming EDA with Seaborn and pandasUsing EDA Python packagesUsing visualization best practicesMaking plots with Plotly
2024-02-11 12:18:05 738
原创 DS Wannabe之5-AM Project: DS 30day int prep day11
keywords: tensors,RNN, transfer learning, hyperparamters, sobel filter, boltzmann machine,
2024-02-11 08:10:17 807
原创 DS Wannabe之5-AM Project: DS 30day int prep day10
A recommender system is today widely deployed in multiple fields like movie recommendations, music preferences, social tags, research articles, search queries and so on. The recommender systems work as per collaborative and content-based filtering or by de
2024-02-11 07:32:28 931
原创 DS Wannabe之5-AM Project: DS 30day int prep day9
OutOfCore学习指的是在数据集太大而无法完全存储在计算机主内存(RAM)中时,用于处理数据的技术和算法。与模型参数不同,模型参数是在训练过程中从数据中学习得到的(如神经网络中的权重),而超参数是在学习过程之前设置的,并且对模型的行为和性能有重大影响。然而,它也可能是计算密集型和耗时的,特别是对于具有大量超参数或复杂搜索空间的模型。:常见的超参数示例包括梯度下降中的学习率、神经网络中的隐藏层和神经元数量、回归模型中的正则化项,以及随机森林等集成模型中的树的数量或树的深度。
2024-02-10 17:12:58 1001
原创 5-AM Project: day8 Practical data science with Python 3
Loading dataExamining data with EDACleaning and preparing data for further analysisSaving data to disk
2024-02-10 09:11:59 1165
原创 5-AM Project: day8 Practical data science with Python 2
【代码】5-AM Project: day8 Practical data science with Python 2。
2024-02-07 06:58:30 1088
原创 5-AM Project: day8 Practical data science with Python 1
【代码】5-AM Project: day8 Practical data science with Python 1。
2024-02-06 06:43:47 871
原创 DS Wannabe之5-AM Project: DS 30day int prep day7
例如,原始时间序列为X1, X2, X3,...,Xn,一阶差分后的序列为(X2 - X1, X3 - X2, X4 - X3,...,Xn - X(n-1))。可以通过视觉检查(如绘制时间序列图)和统计检验(如ADF检验和KPSS检验)来确定数据是否平稳。该检验的原假设是序列有单位根(即非平稳),备择假设是序列没有单位根(即平稳)。AIC(赤池信息准则)和BIC(贝叶斯信息准则)是时间序列分析中用来评估模型拟合优度的指标,它们通过考虑模型复杂度(参数数量)和数据拟合程度来帮助选择最佳模型。
2024-02-04 07:05:23 1022
原创 【考试不慌】ISS615 Database Mgt学习笔记(4) Logical Database Design and the Relational Model
今天我们讨论了数据库设计中的几个关键步骤,包括:代理主键:我们解释了代理主键是如何在数据库设计中用作唯一标识符,特别是在自然主键不可用或不适用的情况下。映射关联实体映射一元关系映射三元(和n元)关系
2024-02-03 13:30:19 1104
原创 DS Wannabe之5-AM Project: DS 30day int prep day6
今天的学习主题主要集中在深度学习和自然语言处理(NLP)的高级概念上。
2024-02-03 07:09:27 721
原创 DS Wannabe之5-AM Project: DS 30day int prep day5
今天的学习主题涵盖了深度学习和机器学习中的一些关键概念,包括神经网络中的Dropout技术、迁移学习、VGG16和ResNet模型的架构、以及YOLO(You Only Look Once)物体检测算法。每个主题都围绕着如何提高模型性能、解决过拟合问题以及如何有效地处理图像识别和物体检测任务进行讨论。这些概念和技术对于理解和应用当前的深度学习模型至关重要。
2024-02-02 07:19:56 791
原创 DS Wannabe之5-AM Project: DS 30day int prep day2
因此,在CART算法中,我们会选择那些能够产生最小基尼指数的属性来进行分裂,以此构建决策树,直到达到某个停止条件,如节点中的样本数量低于某个阈值,或者所有节点的基尼指数都已经很低了。在分类问题中,SVM的目标是找到一个超平面(在二维空间中是一条直线,在更高维空间中是一个平面或超平面),这个超平面能够最好地分隔不同类别的数据点。通过在每个分裂点随机选择变量,随机森林还增加了模型的多样性,这有助于降低过拟合的风险,提高模型在未见数据上的泛化能力。在构建决策树时,目标是选择最佳的分裂属性,以最大化不纯度的减少。
2024-01-30 07:06:07 996 1
原创 DS Wannabe之5-AM Project: DS 30day int prep day1
Day1: different types of ML, linear regression, OLS, L1/L2, R-Square, MSE, support vector regression
2024-01-29 06:17:10 704
原创 DS Wannabe Prep学习笔记: 5. Technical Interview: Coding (Part1)
一道模拟ds coding面试题
2024-01-28 09:36:20 856
原创 【考试不慌】ISS615 Database Mgt学习笔记(3) Advanced Database Analysis- EER
Enhanced ER modelling
2024-01-27 14:45:12 1198
原创 DS Wannabe Prep学习笔记: 8. Tying It All Together: Your Interview Roadmap
反思:这章虽然在后面,但是非常实用,其实应该先看看来做可实施的面试准备计划。
2024-01-25 07:39:27 867
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人