数据挖掘，计算机网络、操作系统刷题笔记43-CSDN博客

本文链接：https://blog.csdn.net/weixin_46838716/article/details/128898765

数据挖掘，计算机网络、操作系统刷题笔记43

文章目录

数据挖掘，计算机网络、操作系统刷题笔记43
@[TOC](文章目录)

数据挖掘分析应用:特征变换
对指化：对数化，指数化
数据离散化：连续数据变换为离散数据
归一化
标准化：z-score
网关工作在 OSI 模型的（）。
tcp是面向数据包的面向连接的 udp是面向报文的
动态路由协议相比静态路由协议（多选）（）
Windows 98 是（）操作系统
下列哪种方法不能实现客户端-服务器（Client-Server）模式的进程间通信（　）
进程是动态的、多个进程可以含有相同的程序和多个进程可以并行运行
下列关于管程的叙述中，错误的是( )
下面关于进程和线程的描述，错误的是（）
只能检测错误而不能纠正错误的编码方法是()。
在可变式分区分配方案中，将空白区在空白区表中按地址递增次序排列是（）。
以下关于管程的说法中不正确的是（）。
总结

数据挖掘分析应用:特征变换

在这里插入图片描述

对指化：对数化，指数化

对数底数e
自变量很小，但是因变量变化极其大

相当于扩大尺度了
在这里插入图片描述
反过来，有了y就知道x变化小
用处大

softmax就是一样的

对数和指数相反
x变化很大，y变化很小哦
在这里插入图片描述
你看看，我们可以缩放映射到0—1之间
取一个10为底的对数

代码中

任何数学包都有他们

数据离散化：连续数据变换为离散数据

原因？为啥离散化？？？？
在这里插入图片描述
连续数据太多gg
最后是用离散分布好说

算法需要离散的输入的话
非线性映射
A是上升
B是平稳
可能离散最好
在这里插入图片描述
离散化的三种方法

xy的分布来决定离散化

离散化的分箱：深度，即数据的个数
宽度是数据的区间
比如；
数据个数有多少？叫深度
9个数，333一组
在这里插入图片描述

数据区间是宽度？
宽度就是数据的区间尽量一致

在这里插入图片描述

在这里插入图片描述
这就是宽度

别混了哦

下面代码演示

数据是[6,8,10,15,16,24,25,40,67]
用pandas就可以搞定分箱，pandas是专门处理数据的包

import numpy as np
import pandas as pd
import scipy.stats as ss

def f1():
    pass
    # 分箱技术：深度看个数，宽度看区间
    lst = [6,8,10,15,16,24,25,40,67]
    print(pd.qcut(lst, q=3))  # 深度q=3个区间


if __name__ == '__main__':
    f1()
[(5.999, 13.333], (5.999, 13.333], (5.999, 13.333],
 (13.333, 24.333], (13.333, 24.333], (13.333, 24.333], 
 (24.333, 67.0], (24.333, 67.0], (24.333, 67.0]]
Categories (3, interval[float64]): [(5.999, 13.333] < (13.333, 24.333] < (24.333, 67.0]]

Process finished with exit code 0

import numpy as np
import pandas as pd
import scipy.stats as ss

def f1():
    pass
    # 分箱技术：深度看个数，宽度看区间
    lst = [6,8,10,15,16,24,25,40,67]
    # print(pd.qcut(lst, q=3))  # 深度q=3个区间
    print(pd.qcut(lst, q=3, labels=['low', 'medium', 'high']))  # 深度q=3个区间


if __name__ == '__main__':
    f1()
['low', 'low', 'low', 'medium', 'medium', 'medium', 'high', 'high', 'high']
Categories (3, object): ['low' < 'medium' < 'high']

Process finished with exit code 0

标注

等宽呢？
看bins


    print(pd.cut(lst, bins=3))  # 宽度不叫，qcut，bins=3个区间
[(5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333],
 (26.333, 46.667], 
(46.667, 67.0]]
Categories (3, interval[float64]): [(5.939, 26.333] < (26.333, 46.667] < (46.667, 67.0]]

Process finished with exit code 0

这分箱没看懂

干啥呢它
没啥用？
还是说为了打标签

这样看


    print(pd.cut(lst, bins=3, labels=['low', 'medium', 'high']))  # 宽度不叫，qcut，bins=3个区间
    ['low', 'low', 'low', 'low', 'low', 'low', 'low', 'medium', 'high']
Categories (3, object): ['low' < 'medium' < 'high']

Process finished with exit code 0

能看懂了？

归一化

数据变化方法，最小最大化的特殊形式

归一化到0–1之间的区间
在这里插入图片描述
相当于它所处的区间比例

区间20
在这里插入图片描述
这样的话，量纲就没用了

标准化：z-score

范围很广
转化为标准形式
如何定义：你自己定义

缩放到均值为0，标准差为1呢？
在这里插入图片描述

组1
组2
转换后，组2的差距更大
组1中，1和0的差距不显著
组2中，1和0的差距很显著:1很高
这样的话，差距大一点，你突出一点
和周围人对比的话，安静的多，那么你突出

知道z-score牛逼了吧

代码：

def f2():
    from sklearn.preprocessing import MinMaxScaler, StandardScaler
    # 归一化
    x = np.array([1,4,10,15,21])
    print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
    # z-score


if __name__ == '__main__':
    f2()

标准哈

def f2():
    from sklearn.preprocessing import MinMaxScaler, StandardScaler
    # 归一化
    x = np.array([1,4,10,15,21])
    # print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
    print(StandardScaler().fit_transform(x.reshape(-1, 1))) # 1列
    # z-score


if __name__ == '__main__':
    f2()

[[-1.2689957 ]
 [-0.85519275]
 [-0.02758686]
 [ 0.66208471]
 [ 1.4896906 ]]

Process finished with exit code 0

def f2():
    from sklearn.preprocessing import MinMaxScaler, StandardScaler
    # 归一化
    x = np.array([1,4,10,15,21])
    x2 = np.array([1,1,1,1,0,0,0,0])
    x3= np.array([1,0,0,0,0,0,0,0])
    # print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
    # print(StandardScaler().fit_transform(x.reshape(-1, 1))) # 1列
    print(StandardScaler().fit_transform(x2.reshape(-1, 1))) # 1列
    print(StandardScaler().fit_transform(x3.reshape(-1, 1))) # 1列
    # z-score


if __name__ == '__main__':
    f2()
[[ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [-1.]
 [-1.]
 [-1.]
 [-1.]]
[[ 2.64575131]
 [-0.37796447]
 [-0.37796447]
 [-0.37796447]
 [-0.37796447]
 [-0.37796447]
 [-0.37796447]
 [-0.37796447]]

Process finished with exit code 0

你瞅瞅
是不是很多高的人，你不算那么高
但是周围全是矮子，看起来你更高
这就是z-score标准化的好处

突出重点

网关工作在 OSI 模型的（）。

起码错了四次………………BGP是应用层
在这里插入图片描述

一层（物理层）：网卡、集线器、中继器
二层（数据链路层）：网桥、交换机
三层（网络层）：路由器
传输层、应用层：网关。

tcp是面向数据包的面向连接的 udp是面向报文的

在这里插入图片描述

动态路由协议相比静态路由协议（多选）（）

在这里插入图片描述

Windows 98 是（）操作系统

在这里插入图片描述

下列哪种方法不能实现客户端-服务器（Client-Server）模式的进程间通信（　）

在这里插入图片描述

进程是动态的、多个进程可以含有相同的程序和多个进程可以并行运行

在这里插入图片描述

下列关于管程的叙述中，错误的是( )

在这里插入图片描述

下面关于进程和线程的描述，错误的是（）

在这里插入图片描述

只能检测错误而不能纠正错误的编码方法是()。

在这里插入图片描述

卷积码是一种差错控制编码，是一种有记忆的纠错码，编码规则是将k个信息比特编码形成n个比特，编码后的n个码元不但与当前输入的k个信息有关，仍与之前的L-1组的信息有关。

循环校验码(CRC码)，是数据通信领域中最常用的一种差错校验码，其特征是信息字段和校验字段的长度可以任意选定。接收端收到的信息按发送端形成循冗余码同样的算法进行校验，如果发现错误，则通知发送端重发。

海明码在传输的消息流中插入验证码，当计算机存储或移动数据时，可能会产生数据位错误，以侦测并更正单一比特错误。

奇偶校验(Parity Check)是一种校验代码传输正确性的方法。根据被传输的一组二进制代码的数位中"1"的个数是奇数或偶数来进行校验，采用奇数的称为奇校验，反之，称为偶校验。能够检测出信息传输过程中的部分误码(奇数位误码能检出，偶数位误码不能检出)，同时，它不能纠错。在发现错误后，只能要求重发。