一、硬件
HP刀片机、IBM小型机、Dell X86
CPU(指令集、路数、核数)、内存(buffer存\cache读)、磁盘分类、RAID分类、电源AB路或多路+UPS、网络口、远程管理卡(如:dell iDRAC)散热
二、网络
OSI、TCP/IP、CIDR、BGP、CN2、OSPF、MPLS、IPV6、Qos、STP、VLAN、VRRP、IPsec、L2TP
HTTP(get post)、cookie、session、token
交换机、路由器、防火墙、综合布线(CAT5\5e\6、光纤(多模、单模))、WIFI(AP、POE、AC)
门禁、考勤、视频监控、动环监控、UPS
三、软件
1、系统:Linux
系统安装、内核、目录结构、启动流程、文件系统
常用命令,vi、vim、find、三剑客(grep\sed\awk)、rsync、scp、dig
用户管理、磁盘分区、软件包管理、文件权限、文本处理、进程管理、性能分析工具
内核微调,安全加固,禁用服务,iptables,firewall,性能调优
SSHD、sudoer、rc.local、fastab
Windows:
系统安装(WDS、WSUS、DHCP、DNS、SCCM)、邮件服务(exchange)、
系统命令:ping、ipconfig、sysdm.cpl、cleanmgr、compmgmt.msc、dfrg.msc、explorer、fsmgmt.msc、gpedit.msc、lusrmgr.msc、mstsc、mmc、services.msc、nslookup、netstat:an、perfmon.msc
bat、powershell、WPF、
2、中间件
JDK、JVM
nginx(tengine)、FastCGI、squid、HAproxy、LVS、Keepalived、Heartbeat、tomcat
Zull、Eureka、Zookeeper、Nacos、RabbitMQ、RocketMQ、Kafka、Ribbon或ingress-nginx、Hystrix、Apollo、CAT、ELK、zalando ZMon、Skywalking
动静分离、日志切割、防盗链、防sql注入
3、数据库
mysql、DB2、Oracle、Postgressql、SQL server、TiDB
MHA、MGR、Mycat、sharding jdbc、360 mysql atlas
4、nosql
mongodb、redis、etcd、
时序数据库(TSDB):influxdb
5、分布式存储
FastDFS、MFS、HDFS、Ceph、GFS
6、集群与高可用
CAP原则
7、Web静态缓存
CDN、Squid、Varnish、Nginx
8、常用服务搭建
LAMP、LNMP
vsftp、nfs、samba、bind、dhcp
9、海外
VPN等
四、虚拟化
1、VMware ESXI、KVM、Xen、Hyper-v、proxmox
2、docker、docker compose、Kubernetes、Swarm、Kubesphere、portainer、podman、Rancher
3、Ceph、Helm
五、自动化
1、Ansible、Saltstack
2、CI/CD:Jenkins+Pipeline+sonarqub、JenkinsX、TeamCity、Bamboo、spinnaker、tekton
3、Python (Django、Flask)、Shell脚本
4、CMDB、onecmdb、Spug、BigOps、EasyOps、蓝鲸智云
5、跳板机:jumpserver、teleport、自己开发的
六、日志分析系统
ELK、EFK、rsyslog,loganalyzer
x-pack
七、性能优化
硬件层、操作系统层、软件层(中间件层、数据库层)和架构层维度
八、安全
CC、DDOS、ARP
WAF、堡垒机、HTTPS、google二次身份认证、白名单
web安全:
输入输出验证不充分:SQL注入、XSS、CSRF、目录穿越、文件上传、代码注入、命令注入、信息泄露
设计缺陷:越权漏洞、非授权对象引用、业务逻辑缺陷
环境缺陷:框架漏洞(java反序列化漏洞),基础环境漏洞(操作系统bug,用户权限管理无序,数据库允许远程登录,redis、mongodb无密码防护)
九、监控系统
Zabbix、Grafana、prometheus、Nagios、Cacti、PRTG、open-falcon、夜莺(Nightingale)
APM:datadog、Pinpoint、SkyWalking、Zipkin、CAT
以微服务--服务监控为例:
体系:
1、日志类(log)
2、调用链类(Tracing)
3、度量类(Metrices)
4、拓扑关系
5、告警通知
6、健康检查
对象:
1、系统层 CPU、DISK、MEM、Network
2、应用层 接口、框架、健康状态
3、用户层 功能层面
指标:
1、延迟时间 HTTP请求平均响应时间
2、请求量 QPS
3、错误率 某接口一段时间内调用失败比例
方式:
1、部署 多服务、多服务器
2、收集log和各个服务的指标,聚合在一起
十、运维管理
ITIL V4.0、DevOps、AiOps
DevOps:
人员:工作量、绩效、团队合作
项目:需求、进度、成本、资源、风险
应用:质量、容量、服务依赖、稳定性、变更
闭环:项目管理(应用注册)、需求管理、版本控制、构建(持续集成)、配置中心、制品管理、自助发布、自动化测试、缺陷管理、业务监控告警、部署、故障处理、日志管理、自助运维、度量
运维工作知识体系、操作系统和业务系统部署规范、运维制度、应急处理、数据库运维规范、发布流程及规范、信息安全管理制度、操作审计、数据库审计
运维项目预算、项目验收
应急处理:
1、灾备
2、两地三中心,多活
3、域名服务商故障:自建DNS+Httpdns+ip
DevOps落地
1、挑战:企业文化、团队能力、成本收益、体系复杂性。成本收益:按需、快速、可靠、反馈
2、困局:如何搭建班子?谁来主导?从哪里开始?工作边界在哪里?有没有标准的实施路径?怎么证价值?
3、突破:搭班子-->明确职责;定调子-->统一目标;迈步子-->坚持MVP原则。MVP:最小化可行性产品。MVP目标:以最快的速度、最小的精力,完成一次反馈循环。
4、案例:
a、工程师不愿意填写项目过程数据,而PO、PM需要基于这些数据进行项目过程分析;
b、工程师在开发完成后写长篇大论的操作步骤,以说明变更的工程清单、配置、数据库等,以及更新步骤,还经常出现遗漏。
方法:
a、分支规范+githook;
b、消息监听
c、扩充范围
d、集成动作
目标:
项目过程数据自动回写,上线步骤自动完成。
5、质量门禁
a、CodeReview、SonarQube、单元测试、慢查询
b、统一配置平台。应用、DB、中间件、环境变量、网络
6、虚荣性指标
用户总量、业务总量、新增用户
可执行指标
发现问题数、节约成本、加快流程,具体:问题修复时长趋势,环境新建/更新失败原因
7、团队成长
依赖期、独立期、互赖期
十一、开发环境
Gitlab+Gerrit、Nexus、SVN、FTP、Confluence、Jira(Agile和Zephyr插件)、wiki、缺陷管理、tpad
maven、nexus、JForg、Harbor
十二、开发构架
spring cloud、dubbo
十三、多云管理
aliyun、华为云、腾讯云、AWS、goolge cloud platform、Azure
aliyun:域名、VPC、ECS、SLB、RDS、WAF、CDN、OSS、DTS、短信等
域名:万网、GoDaddy
DNS:dnspod、aliyun
Terraform、多云下的帐单管理