1. 列举几个常用的python分析数据包及其作用
Numpy:数值计算
Matplotlib:数据可视化
Pandas:数据预处理和数据分析
scikit-learn:机器学习算法建模预测
2. 如何利用 numpy 对数列的前n项进行排序
arr = np.array([11, 2, 32, 14, 5, 6, 99, 8, 0])[:7]
a = np.sort(arr)
3. pandas中使用的标准数据缺失标志是什么
NaN
4. 如何检验numpy的array为空
a = np.array([])
print(a.size) # 0
5.什么是逻辑斯蒂回归(logistic regression)
将线性回归模型输出的预测值带入sigmoid函数,函数会输出相对应的二分类的概率。
6.如何评价一个逻辑斯蒂模型
逻辑斯蒂回归是一个非常经典的二项分类模型,也可以扩展为多项分类模型。
7.如何处理缺失的数据?(如果缺失的数据不可得,采用何种手段收集?)
df.fillna("n") # 填充缺失数据
df.dropna() # 删选缺失数据
Series中用replace()
8.逻辑斯蒂回归和线性回归的区别
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。
2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系
4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系
9.介绍一下朴素贝叶斯算法
P(A|B) = P(AB)/P(B)
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
10.请举例说明自己参与的一个数据分析项目有
TODO
11.根据下面3张表格,按照要求使用SQL语句实现查询结果
class表
class_no | st_no | st_name |
---|---|---|
c1 | st1 | Sam |
c1 | st2 | lucy |
c2 | st3 | jean |
c2 | st4 | lock |
c2 | st5 | lily |
score表
st_no | subject_no | score |
---|---|---|
st1 | 1 | 72 |
st1 | 2 | 89 |
st1 | 3 | 78 |
st3 | 1 | 87 |
st3 | 3 | 89 |
st4 | 1 | 98 |
st4 | 2 | 94 |
subject表
subject_no | subject_name |
---|---|
1 | chinese |
2 | mathmatics |
3 | English |
1.查询每个班级各科成绩总和
# 出现下面这种 ERROR 1055 (42000): Expression of SELECT list is not in GROUP BY clause and contains nonaggregate # 第一步要执行 set sql_mode ='STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION'; # 执行sql语句 select class.class_no, score.subject_no, subject.subject_name, sum(score) from score inner join subject on subject.subject_no=score.subject_no inner join class on class.st_no=score.st_no where class.class_no='要查询的班级' group by score.subject_no;
2.查询每个班级语文成绩大于85分的人数
select class.class_no,class.st_no, score.score,subject.subject_name from score inner join class on class.st_no=score.st_no inner join subject on subject.subject_no=score.subject_no where score.score>85 group by class.st_no having subject.subject_name="chinese"
3.查询语文成绩大于数学成绩的姓名和归属班级
select a.class_no, a.st_name from class a inner join score b on a.st_no=b.st_no and b.subject_no=1 inner join score c on a.st_no=c.st_no and c.subject_no=2 where b.score>c.score;
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过 Euler integral
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B) = P(AB)/P(B) P(A∣B)=P(AB)/P(B)