数据挖掘,计算机网络、操作系统刷题笔记41

数据挖掘,计算机网络、操作系统刷题笔记41

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
考网警特招必然要考操作系统,计算机网络,由于备考时间不长,你可能需要速成,我就想办法自学速成了,课程太长没法玩
刷题系列文章
【1】Oracle数据库:刷题错题本,数据库的各种概念
【2】操作系统,计算机网络,数据库刷题笔记2
【3】数据库、计算机网络,操作系统刷题笔记3
【4】数据库、计算机网络,操作系统刷题笔记4
【5】数据库、计算机网络,操作系统刷题笔记5
【6】数据库、计算机网络,操作系统刷题笔记6
【7】数据库、计算机网络,操作系统刷题笔记7
【8】数据库、计算机网络,操作系统刷题笔记8
【9】操作系统,计算机网络,数据库刷题笔记9
【10】操作系统,计算机网络,数据库刷题笔记10
【11】操作系统,计算机网络,数据库刷题笔记11
【12】操作系统,计算机网络,数据库刷题笔记12
【13】操作系统,计算机网络,数据库刷题笔记13
【14】操作系统,计算机网络,数据库刷题笔记14
【15】计算机网络、操作系统刷题笔记15
【16】数据库,计算机网络、操作系统刷题笔记16
【17】数据库,计算机网络、操作系统刷题笔记17
【18】数据库,计算机网络、操作系统刷题笔记18
【19】数据库,计算机网络、操作系统刷题笔记19
【20】数据库,计算机网络、操作系统刷题笔记20
【21】数据库,计算机网络、操作系统刷题笔记21
【22】数据库,计算机网络、操作系统刷题笔记22
【23】数据库,计算机网络、操作系统刷题笔记23
【24】数据库,计算机网络、操作系统刷题笔记24
【25】数据库,计算机网络、操作系统刷题笔记25
【26】数据库,计算机网络、操作系统刷题笔记26
【27】数据库,计算机网络、操作系统刷题笔记27
【28】数据库,计算机网络、操作系统刷题笔记28
【29】数据库,计算机网络、操作系统刷题笔记29
【30】数据库,计算机网络、操作系统刷题笔记30
【31】数据库,计算机网络、操作系统刷题笔记31
【32】数据库,计算机网络、操作系统刷题笔记32
【33】数据库,计算机网络、操作系统刷题笔记33
【34】数据库,计算机网络、操作系统刷题笔记34
【35】数据挖掘,计算机网络、操作系统刷题笔记35
【36】数据挖掘,计算机网络、操作系统刷题笔记36
【37】数据挖掘,计算机网络、操作系统刷题笔记37
【38】数据挖掘,计算机网络、操作系统刷题笔记38
【39】数据挖掘,计算机网络、操作系统刷题笔记39
【40】数据挖掘,计算机网络、操作系统刷题笔记40


数据挖掘与分析:特征工程–数据预处理

在这里插入图片描述
根据机器学习自动化处理各种属性,搞出重要的特征来
f(x)

这个过程叫特征工程

数据集越大,质量越好,模型的复杂度越低
反之复杂度越高

数据质量的还坏,决定了机器学习的上限,模型和算法只是无限逼近它而已

在这里插入图片描述
三位数有啥特征呢?
123
看看它等差?
重合?
线性?
在这里插入图片描述
有钱人都喜欢用连着重合的车牌号
电话号都想要大号888
666
不喜欢4啥的

数据选择:找我们要啥数据,sql表,日志文件,抓取,
数据可以用吗?它可以持续输出,天级别的更新,时级别更新
隐私你能用吗?
成本过高你不能用!

特征来源?来自哪个表
这些文件放在哪里?存储,规整为一个表

本章重点,特征预处理,使得特征的区分度高
数据清洗+预处理

特征监控:长期使用,可用数据集越来越多
模型效果可能会变化,参数需要 不同变化,监控
现有特征作用还有用吗?
新特征能否帮助模型改进
在这里插入图片描述

数据清洗

数据样本抽样

抽样,数据量太大没法直接处理
你需要抽几个出来检测,观察

抽样具有代表性,特征比例和整体比例保持一致
样本比例的平衡问题,不能让比例失调
最好使用大数据,数据量大,维度广
在这里插入图片描述
利用大数据工具,不能用时间做一个小模型,浪费时间

异常值处理

之前说过,异常值null,我们统计过null的个数

今天是处理null:复习
丢弃null?
删除行?
替换为另一个数?

识别null,Python代码:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四分位数可以界定边界
在这里插入图片描述
例子

在这里插入图片描述
字符类型空:None
数字类型空:NaN

import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_context(font_scale=1.5)
df = pd.read_csv('nana.csv')

def f1():
    data = pd.DataFrame(df)

    print(data)

if __name__ == '__main__':
    f1()
   a0    b0    1   0.1    10  f0
0  a1    b1  2.0  10.2  19.0  f1
1  a1    b2  NaN  11.4  32.0  f2
2  a2    b2  3.0   8.9  25.0  f3
3  a3    b3  4.0   9.0   8.0  f4
4  a4  None  5.0  12.0   NaN  f5

Process finished with exit code 0

看看哪里null

    print(da.isnull())  # True的地方就是null
      a0     b0      1    0.1     10     f0
0  False  False  False  False  False  False
1  False  False   True  False  False  False
2  False  False  False  False  False  False
3  False  False  False  False  False  False
4  False  False  False  False   True  False

Process finished with exit code 0

它认为None不是空哦
所以改改将None搞成null
在这里插入图片描述

   print(da.dropna())  # 删除nan对应的行
   a0  b0    1   0.1    10  f0
0  a1  b1  2.0  10.2  19.0  f1
2  a2  b2  3.0   8.9  25.0  f3
3  a3  b3  4.0   9.0   8.0  f4

Process finished with exit code 0

如果你只想删除特定的字段内含有nan的这个行,你需要指定字段


    print(da.dropna(subset=['B']))  # 删除nan对应的行——字段限制

在这里插入图片描述

print(da.duplicated('A'))  # 字段A里面的重复值
0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool

Process finished with exit code 0

你看,就是第一列里面对应的2行是跟1行重复的


    print(da.duplicated(['A','B']))  # 字段A里面的重复值
0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

Process finished with exit code 0

原以为是A,B字段有其一空就可以指定重复的
但不是

这个含义是,AB俩字段,在某一个行同时重复才算
不信我改改数据

在这里插入图片描述
懂了吧?

去掉A字段的重复值所在的行


    print(da.drop_duplicates(['A']))  # 去掉字段A里面的重复值对应的行

在这里插入图片描述

同时去掉呢?


    print(da.drop_duplicates(['A', 'B']))  # 去掉字段A里面的重复值对应的行

在这里插入图片描述


    # print(da.drop_duplicates(['A'], keep='first'))  # 去掉字段A里面的重复值对应的行
    print(da.drop_duplicates(['A'], keep=False))  # 去掉字段A里面的重复值对应的行

里面的keep是保留哪一行
first第一行
last最后一行
False是全部干掉
在这里插入图片描述

填充呢?

print(da.fillna('*'))  # 检测到的null,填充为*

在这里插入图片描述
你还可以用字段的均值,中位数等别的东西替换


    print(da.fillna(da['E'].mean()))  # 检测到的null,填充为E字段的均值

在这里插入图片描述
插值只能用在series中
它会自动去给你推荐一个数


    print(da['E'].interpolate())

在这里插入图片描述
规则是啥?
末尾行,直接去前面那个数
其余地方,都是上下的均值


    print(da['C'].interpolate())

在这里插入图片描述
看懂了吗

第一行的话,直接去第二行

插值里面的方法你可以指定——官网可以查看别的方法

另外,我们之前说过,上下边界值,超过的算异常值,需要干掉这个行


    upper = da['D'].quantile(q=0.75)
    lower = da['D'].quantile(q=0.25)  # 上下分位数
    inter = upper - lower
    k = 1.5
    print(da[da['D'] >= lower - k * inter][da['D'] <= upper + 1.5 * inter])  # 只限定上下界

在这里插入图片描述
异常值直接给干掉

如果限定F字段
开头不是f的干掉

索引里面填入条件
等价于where

def f2():
    print(da[ [True if i.startswith("f") else False for i in list(da['F'].values)]])
    # 字符串需要""


if __name__ == '__main__':
    f2()

限定F字段中那些值以f开头的返回True
然后我们不要False这行
在这里插入图片描述
满足list遍历检查,f开头的行

TCP可靠传输的实现中,不包括( )。

在这里插入图片描述

Ethernet 标准采用的媒体访问控制方式为( )。

在这里插入图片描述

TCP里面没有IP的信息,IP数据报含有TCP信息

在这里插入图片描述
ip是网络层的东西
tcp是传输层的

服务器是指网络中能对其他机器提供某些服务的计算机系统。在局域网中,其是用来提供并管理共享资源的计算机

在这里插入图片描述

刚开始计算时需要在11001001后面添三位0,从多项式可得二进制比特串为1011,使用模二除余法11001001000/1011得余数为001

在这里插入图片描述

下面不会产生 ICMP 差错报文的是( )。

在这里插入图片描述

数据链路层可以提供哪些服务类型( )

在这里插入图片描述
你都没有确认,咋可能有链接???????

磁盘存储器是由( )组成的。

在这里插入图片描述

分页式存储管理中,地址转换工作是由() 完成的

在这里插入图片描述

协程由程序员控制

在这里插入图片描述

在FAT32文件系统中,磁盘空间的分配单位是()

在这里插入图片描述

在下面关于虚拟存储器的叙述中,正确的是( )。

在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,操作系统,计算机网络,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰露可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值