数据挖掘,计算机网络、操作系统刷题笔记43
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
考网警特招必然要考操作系统,计算机网络,由于备考时间不长,你可能需要速成,我就想办法自学速成了,课程太长没法玩
刷题系列文章
【1】Oracle数据库:刷题错题本,数据库的各种概念
【2】操作系统,计算机网络,数据库刷题笔记2
【3】数据库、计算机网络,操作系统刷题笔记3
【4】数据库、计算机网络,操作系统刷题笔记4
【5】数据库、计算机网络,操作系统刷题笔记5
【6】数据库、计算机网络,操作系统刷题笔记6
【7】数据库、计算机网络,操作系统刷题笔记7
【8】数据库、计算机网络,操作系统刷题笔记8
【9】操作系统,计算机网络,数据库刷题笔记9
【10】操作系统,计算机网络,数据库刷题笔记10
【11】操作系统,计算机网络,数据库刷题笔记11
【12】操作系统,计算机网络,数据库刷题笔记12
【13】操作系统,计算机网络,数据库刷题笔记13
【14】操作系统,计算机网络,数据库刷题笔记14
【15】计算机网络、操作系统刷题笔记15
【16】数据库,计算机网络、操作系统刷题笔记16
【17】数据库,计算机网络、操作系统刷题笔记17
【18】数据库,计算机网络、操作系统刷题笔记18
【19】数据库,计算机网络、操作系统刷题笔记19
【20】数据库,计算机网络、操作系统刷题笔记20
【21】数据库,计算机网络、操作系统刷题笔记21
【22】数据库,计算机网络、操作系统刷题笔记22
【23】数据库,计算机网络、操作系统刷题笔记23
【24】数据库,计算机网络、操作系统刷题笔记24
【25】数据库,计算机网络、操作系统刷题笔记25
【26】数据库,计算机网络、操作系统刷题笔记26
【27】数据库,计算机网络、操作系统刷题笔记27
【28】数据库,计算机网络、操作系统刷题笔记28
【29】数据库,计算机网络、操作系统刷题笔记29
【30】数据库,计算机网络、操作系统刷题笔记30
【31】数据库,计算机网络、操作系统刷题笔记31
【32】数据库,计算机网络、操作系统刷题笔记32
【33】数据库,计算机网络、操作系统刷题笔记33
【34】数据库,计算机网络、操作系统刷题笔记34
【35】数据挖掘,计算机网络、操作系统刷题笔记35
【36】数据挖掘,计算机网络、操作系统刷题笔记36
【37】数据挖掘,计算机网络、操作系统刷题笔记37
【38】数据挖掘,计算机网络、操作系统刷题笔记38
【39】数据挖掘,计算机网络、操作系统刷题笔记39
【40】数据挖掘,计算机网络、操作系统刷题笔记40
【41】数据挖掘,计算机网络、操作系统刷题笔记41
【42】数据挖掘,计算机网络、操作系统刷题笔记42
文章目录
- 数据挖掘,计算机网络、操作系统刷题笔记43
-
- 数据挖掘分析应用:特征变换
- 对指化:对数化,指数化
- 数据离散化:连续数据变换为离散数据
- 归一化
- 标准化:z-score
- 网关工作在 OSI 模型的( )。
- tcp是面向数据包的 面向连接的 udp是面向报文的
- 动态路由协议相比静态路由协议(多选)( )
- Windows 98 是()操作系统
- 下列哪种方法不能实现客户端-服务器(Client-Server)模式的进程间通信( )
- 进程是动态的、多个进程可以含有相同的程序和多个进程可以并行运行
- 下列关于管程的叙述中,错误的是( )
- 下面关于进程和线程的描述,错误的是( )
- 只能检测错误而不能纠正错误的编码方法是()。
- 在可变式分区分配方案中,将空白区在空白区表中按地址递增次序排列是( )。
- 以下关于管程的说法中不正确的是()。
- 总结
文章目录
- 数据挖掘,计算机网络、操作系统刷题笔记43
- 数据挖掘分析应用:特征变换
- 对指化:对数化,指数化
- 数据离散化:连续数据变换为离散数据
- 归一化
- 标准化:z-score
- 网关工作在 OSI 模型的( )。
- tcp是面向数据包的 面向连接的 udp是面向报文的
- 动态路由协议相比静态路由协议(多选)( )
- Windows 98 是()操作系统
- 下列哪种方法不能实现客户端-服务器(Client-Server)模式的进程间通信( )
- 进程是动态的、多个进程可以含有相同的程序和多个进程可以并行运行
- 下列关于管程的叙述中,错误的是( )
- 下面关于进程和线程的描述,错误的是( )
- 只能检测错误而不能纠正错误的编码方法是()。
- 在可变式分区分配方案中,将空白区在空白区表中按地址递增次序排列是( )。
- 以下关于管程的说法中不正确的是()。
- 总结
数据挖掘分析应用:特征变换
对指化:对数化,指数化
对数底数e
自变量很小,但是因变量变化极其大
相当于扩大尺度了
反过来,有了y就知道x变化小
用处大
softmax就是一样的
对数和指数相反
x变化很大,y变化很小哦
你看看,我们可以缩放映射到0—1之间
取一个10为底的对数
代码中
任何数学包都有他们
数据离散化:连续数据变换为离散数据
原因?为啥离散化????
连续数据太多gg
最后是用离散分布好说
算法需要离散的输入的话
非线性映射
A是上升
B是平稳
可能离散最好
离散化的三种方法
xy的分布来决定离散化
离散化的分箱:深度,即数据的个数
宽度是数据的区间
比如;
数据个数有多少?叫深度
9个数,333一组
数据区间是宽度?
宽度就是数据的区间尽量一致
这就是宽度
别混了哦
下面代码演示
数据是[6,8,10,15,16,24,25,40,67]
用pandas就可以搞定分箱,pandas是专门处理数据的包
import numpy as np
import pandas as pd
import scipy.stats as ss
def f1():
pass
# 分箱技术:深度看个数,宽度看区间
lst = [6,8,10,15,16,24,25,40,67]
print(pd.qcut(lst, q=3)) # 深度q=3个区间
if __name__ == '__main__':
f1()
[(5.999, 13.333], (5.999, 13.333], (5.999, 13.333],
(13.333, 24.333], (13.333, 24.333], (13.333, 24.333],
(24.333, 67.0], (24.333, 67.0], (24.333, 67.0]]
Categories (3, interval[float64]): [(5.999, 13.333] < (13.333, 24.333] < (24.333, 67.0]]
Process finished with exit code 0
import numpy as np
import pandas as pd
import scipy.stats as ss
def f1():
pass
# 分箱技术:深度看个数,宽度看区间
lst = [6,8,10,15,16,24,25,40,67]
# print(pd.qcut(lst, q=3)) # 深度q=3个区间
print(pd.qcut(lst, q=3, labels=['low', 'medium', 'high'])) # 深度q=3个区间
if __name__ == '__main__':
f1()
['low', 'low', 'low', 'medium', 'medium', 'medium', 'high', 'high', 'high']
Categories (3, object): ['low' < 'medium' < 'high']
Process finished with exit code 0
标注
等宽呢?
看bins
print(pd.cut(lst, bins=3)) # 宽度不叫,qcut,bins=3个区间
[(5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333], (5.939, 26.333],
(26.333, 46.667],
(46.667, 67.0]]
Categories (3, interval[float64]): [(5.939, 26.333] < (26.333, 46.667] < (46.667, 67.0]]
Process finished with exit code 0
这分箱没看懂
干啥呢它
没啥用?
还是说为了打标签
这样看
print(pd.cut(lst, bins=3, labels=['low', 'medium', 'high'])) # 宽度不叫,qcut,bins=3个区间
['low', 'low', 'low', 'low', 'low', 'low', 'low', 'medium', 'high']
Categories (3, object): ['low' < 'medium' < 'high']
Process finished with exit code 0
能看懂了?
归一化
数据变化方法,最小最大化的特殊形式
归一化到0–1之间的区间
相当于它所处的区间比例
区间20
这样的话,量纲就没用了
标准化:z-score
范围很广
转化为标准形式
如何定义:你自己定义
缩放到均值为0,标准差为1呢?
组1
组2
转换后,组2的差距更大
组1中,1和0的差距不显著
组2中,1和0的差距很显著:1很高
这样的话,差距大一点,你突出一点
和周围人对比的话,安静的多,那么你突出
知道z-score牛逼了吧
代码:
def f2():
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# 归一化
x = np.array([1,4,10,15,21])
print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
# z-score
if __name__ == '__main__':
f2()
标准哈
def f2():
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# 归一化
x = np.array([1,4,10,15,21])
# print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
print(StandardScaler().fit_transform(x.reshape(-1, 1))) # 1列
# z-score
if __name__ == '__main__':
f2()
[[-1.2689957 ]
[-0.85519275]
[-0.02758686]
[ 0.66208471]
[ 1.4896906 ]]
Process finished with exit code 0
def f2():
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# 归一化
x = np.array([1,4,10,15,21])
x2 = np.array([1,1,1,1,0,0,0,0])
x3= np.array([1,0,0,0,0,0,0,0])
# print(MinMaxScaler().fit_transform(x.reshape(-1, 1))) # 1列
# print(StandardScaler().fit_transform(x.reshape(-1, 1))) # 1列
print(StandardScaler().fit_transform(x2.reshape(-1, 1))) # 1列
print(StandardScaler().fit_transform(x3.reshape(-1, 1))) # 1列
# z-score
if __name__ == '__main__':
f2()
[[ 1.]
[ 1.]
[ 1.]
[ 1.]
[-1.]
[-1.]
[-1.]
[-1.]]
[[ 2.64575131]
[-0.37796447]
[-0.37796447]
[-0.37796447]
[-0.37796447]
[-0.37796447]
[-0.37796447]
[-0.37796447]]
Process finished with exit code 0
你瞅瞅
是不是很多高的人,你不算那么高
但是周围全是矮子,看起来你更高
这就是z-score标准化的好处
突出重点
网关工作在 OSI 模型的( )。
起码错了四次………………BGP是应用层
一层(物理层):网卡、集线器、中继器
二层(数据链路层):网桥、交换机
三层(网络层):路由器
传输层、应用层:网关。
tcp是面向数据包的 面向连接的 udp是面向报文的
动态路由协议相比静态路由协议(多选)( )
Windows 98 是()操作系统
下列哪种方法不能实现客户端-服务器(Client-Server)模式的进程间通信( )
进程是动态的、多个进程可以含有相同的程序和多个进程可以并行运行
下列关于管程的叙述中,错误的是( )
下面关于进程和线程的描述,错误的是( )
只能检测错误而不能纠正错误的编码方法是()。
卷积码是一种差错控制编码,是一种有记忆的纠错码,编码规则是将k个信息比特编码形成n个比特,编码后的n个码元不但与当前输入的k个信息有关,仍与之前的L-1组的信息有关。
循环校验码(CRC码),是数据通信领域中最常用的一种差错校验码,其特征是信息字段和校验字段的长度可以任意选定。接收端收到的信息按发送端形成循冗余码同样的算法进行校验,如果发现错误,则通知发送端重发。
海明码在传输的消息流中插入验证码,当计算机存储或移动数据时,可能会产生数据位错误,以侦测并更正单一比特错误。
奇偶校验(Parity Check)是一种校验代码传输正确性的方法。根据被传输的一组二进制代码的数位中"1"的个数是奇数或偶数来进行校验,采用奇数的称为奇校验,反之,称为偶校验。能够检测出信息传输过程中的部分误码(奇数位误码能检出,偶数位误码不能检出),同时,它不能纠错。在发现错误后,只能要求重发。
在可变式分区分配方案中,将空白区在空白区表中按地址递增次序排列是( )。
以下关于管程的说法中不正确的是()。
总结
提示:重要经验:
1)
2)学好oracle,操作系统,计算机网络,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。