数据科学 专业词汇中英文对照表 1.0 v

Stop words

停顿词

Substantive information

单词携带的信息量

Relational information

关系性信息

Normalization

标准化处理

Performance

表现

Case folding

大小写的改变

Stemming

主要是单词的复数形式中或者指代所有格结果等单词中提取出相应的词干

Stem

词干

Named entity recognition, NER

命名实体识别

Cross-lingual Named entity Recognition

跨语言命名识别

Named entity extraction

命名实体提取

Term frequency, TF

词频

Inverse document frequency, IDF

逆文档频率

TFIDF, TF-IDF

是一种用于信息检索与数据挖掘的常用加权技术

Smooth

平滑

Feature learning, aka representation learning

表示学习

Predicative

预测

categorical

分类或者模式识别

Real-valued

实数

Visible neurons

输入层,输出层

Invisible neurons

隐层

Retina layer

视网膜层

Speech recognition

语音识别

Record

记录

Data set

数据集

Instance

示例

Sample

样本

Attribute

属性

Feature

特征

Attribute value

属性值

Attribute space

属性空间

Sample space

样本空间

Input space

输入空间

Feature vector

特征向量

Dimensionality

示例的维数

Learning

学习

Training

训练

Training data

训练数据

Training sample

训练样本

Training set

训练集

Hypothesis

假设

Ground-truth

有效的正确数据(或正确打标签的训练数据)

Learner

学习器

Label

标记

Label space

标记空间

Output space

输出空间

Classification

分类

Regression

回归

Binary classification

二分类任务

Positive class

正类

Negative class

反类

Multi-class classification

多分类任务

Testing

测试

Testing sample

测试样本

Clustering

聚类

Cluster

Supervised learning

监督学习

Unsupervised learning

无监督学习

Generalization

泛化

Version space

版本空间

Scale-invariant feature transform, SIFT

尺度不变特征转换

Lemmatization

词形还原

Tokenization

分词

Conversion rate optimization, CRO

优化转换率

Garbage in, garbage out, GIGO

无用输入,无用输出

Tuple unpacking

元组拆包

Descriptor

描述符

Metaprogramming

元编程

Sequence type

序列类型

Abstract base class

抽象基类

Collection type

集合类型

Data model

数据模型

Sequence

序列

Mapping

映射

Set

集合

Str

字符

Bytes

字节序列

Locale

区域

First-order object

一等对象

Closure

闭包

Function decorator

函数装饰器

Callable

可调用

Function attribute

函数属性

Introspection

内省

Parameter annotation

参数注解

Class declaration

类声明

Reference

引用

Subroutine

子程序

Generator

生成器

Context manager

上下文管理器

Coroutine

协程

Property

特性

Class decorator

类装饰器

Metaclass

元类

Read-eval-print loop, REPL

交互式解释器

TDD

测试驱动开发

Constant width

等宽字体

Constant width bold

加粗等宽字体

Constant with italic

等宽斜体

Pythonic

Python风格

Magic method

魔术方法

Dunder-getitem

双下-getitem

Dunder method

双下方法

Slicing

切片

Datification

数据化

Datified

数据化的

Data-oriented

面向数据的

Integrated development environment, IDE

集成开发环境

Web integrated development environment, WIDE

网络集成开发环境

Data frame

数据结构

Comparable

可比

Slice of rows

行的切片

Filter

过滤器

Mask

掩码

In-line function

内联函数

Rank data

对数据进行排名

Pivoted table

数据透视表

Population

总体

Item

个体

Unit

单位

Sample

样本

Concept

概念

Measure

度量

Summary

样本汇总

Data preparation

数据准备

Descriptive statistics

描述统计学

Obtaining the data

获取数据

Parsing the data

解析数据

Cleaning the data

清理数据

Building data structures

构建数据结构

Mean

均值

Deviation

偏差

Histogram

直方图

Outlier

离群点/异常值

Sample statistics

样本统计量

Average

算术平均

Variance

方差

Standard deviation

标准方差

Median

中位数

Probability mass function, PMF

概率质量函数

Cumulative distribution function, CDF

累积分布函数

Skewness

偏度

Skew left

偏左

Pearson’s median skewness coefficient

皮尔逊中值偏度系数

Empirical distribution

经验分布

Continuous distribution

连续分布

Normal distribution

正态分布

Gaussian distribution

高斯分布

Closed-form

闭形式

Estimation

估计

Estimator

估计量

Mean squared error, MSE

均方差

Dimensionless

无量纲

Covariance

协方差

Pearson’s correlation

皮尔逊相关

Spearman’s rank correlation

斯皮尔曼秩相关

Frequentist approach

频率论方法

Bayesian approach

贝叶斯方法

Point estimate

点估计

Confidence interval

置信区间

Set estimate

集合估计

Central limit theorem

中心极限定理

Empirical sample distribution

经验样本分布

t-test

T检验

Truth

事实

Sample mean

样本均值

Sample distribution of the sample mean

样本均值抽样分布

Mean sampling distribution

均值抽样分布

Standard error

标准差

Bootstrapping, bootstrap

自助法

A plausible range of values

合理的取值范围

Statistically significant

统计显著性

Period

时期

One sided

单边检验

Two sided

双边检验

Bayesian reasoning

贝叶斯推理

Machine learning

机器学习

Supervised learning

监督学习

Unsupervised learning

无监督学习

Reinforcement learning

强化学习

Classification

分类

Regression

回归

Binary

二元

Multiclass

多元

Adaboost

自适应增强

Confusion matrix

混淆矩阵

Ground truth

正确的数据

Gold standard

黄金标准

True Positives, TP

真且正

False positives, FP

假且正

True negatives, TN

真且负

False Negatives, FN

假且负

Accuracy

准确率

Sensitivity

灵敏度

Specificity

特异度

Precision

查准率

Positive predictive value

正预测率

Negative predictive value, NPV

负预测值

Training set

训练集

Test set

测试集

In-sample error

样本内误差

Training error

训练误差

Out-of-sample error

样本外误差

Generalization error

泛化误差

Indicator function

指标函数

Model selection

模型选择

Cross validation

交叉验证

Leave-one-out

留一法

K-fold cross validation

K折交叉验证法

Test error

测试误差

Bias

偏差

Overfitting

拟合

Regularization

正则化

Validation

验证

Nested cross-validation

嵌套交叉验证

Model class/hypothesis space

模型类/假设空间

Problem model

问题模型

Minimization of an error function

误差函数的最小化

0-1 loss

0-1损失

Learning algorithm

学习算法

Support vector machine, SVM

支持向量机

Support vector

支持向量

Soft-margin SVM

软间隔SVM

Linear kernel

线性核

Polynomial kernel

多项式核

Radial basis function kernel

径向基函数核

Random forest, RF

随机森林

Response

响应

Covariate

协变量

Predictor

预测变量

Simple linear regression

简单线性回归

Multiple linear regression

多元线性回归

Logistic regression

逻辑(斯蒂)回归

Intercept

截距

Constant term

常数项

Ordinary least squares, OLS

最小二乘

Sum of squared errors of prediction, SSE

预测误差平方和

Positive-definite Hessian

带正定海赛

Computational complexity

计算复杂度

Sparse method

稀疏方法

Least absolute shrinkage and selection operator

最小绝对收缩和选择算子

Heat map

热图

Matricial image

矩阵图

Scatter plot

散点图

Linear regression score

线性回归分数

Clustering

聚类

Dimensionality reduction

降维

Principal component analysis, PCA

主成分分析

Novelty detection

新颖性检测

Similarity-based clustering

相似度的聚类

Dissimilarity matrix

相宜度的矩阵

Distance matrix

距离矩阵

Feature-based clustering

基于特征的聚类

Feature matrix

特征矩阵

Design matrix

设计矩阵

Minkowski distance

闵可夫斯基距离

Euclidean distance

欧几里得距离

Manhattan distance

曼哈顿距离

Max-distance

最大距离

Groundtruth

真实

Rand index

兰德指数

Rand measure

兰德度量

Coincidence

一致性

Silhouette coefficient

轮廓系数

Adjusted rand index

调整兰德指数

Homogeneity

同质性

Completeness

完整性

Bounded score

界限分数

Soft partition

软划分

Hard partition

硬划分

EM clustering

EM聚类

Partitional algorithm

划分算法

Spectral clustering

谱聚类

Hierarchical algorithm

分层算法

Agglomerative clustering

凝聚聚类

Inertia

惯性

Within-cluster sum-of-squares

簇内平方和

Simple Laplacian

普拉斯算子

Normalized Laplacian

归一化普拉斯算子

Generalized Laplacian

广义普拉斯算子

Dendrogram

树状图

Top-down

自上而下

Bottom-up

自下而上

Ward

Connectivity matrix

连通矩阵

Node

节点

Edge

Directed

有向的

Undirected

无向的

Directed graph

有向图

Undirected graph

无向图

In-degree

入度

Out-degree

出度

Strength

强度

Weight

权重

Path

路径

Connected

连通的

Fully connected

全连通的

Connected component

连通分量

Subgraph

子图

Small-world

小世界

Scale-free

无标度

Small-world phenomenon

小世界现象

Hub

枢纽

Degree centrality

度中心性

Betweenness centrality

中介中心性

Closeness centrality

紧密中心性

Eigenvector centrality

特征向量中心性

Betweenness

中介性

Current flow betweenness centrality

流中介中心性

Random walk betweenness centrality

随机游走中介中心性

Venn

维恩图

Euler

欧拉图

Louvain

鲁汶方法

Content-based filtering, CBF

基于内容的过滤

Collaborative filtering, CF

协作过滤

Cold-start

冷启动

User-based

基于用户的

Item-based

基于物品的

Item-item

物品-物品

Root mean square error, RMSE

方均根误差

Offline

离线

Online

在线

A-B testing

A-B测试

Natural language toolkit, NLTK

自然语言工具箱

Regular expression, RE

正则表达式

Sparse feature space

稀疏特征空间

Posterior high-dimensional

后验高维

Bag of words,BoW

词袋

Vector space model

向量空间模型

Term frequency-inverse document frequency, TF-IDF

词频-逆文档频率

Uni-gram

一元组

Digram

连字

Tri-gram

三元组

Bi-gram

二元组

Naïve bayes

朴素贝叶斯

Support vector machine, SVM

支持向量机

Cluster

聚类/簇

Direct view

直接视图

Load-balanced view

负载均衡视图

Confirmatory data analysis, CDA

验证性数据分析

数据科学(DS) 中英文对照表 1.0v

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值