一、数据源系统
数据源系统指的是数据分析时使用的数据,也可以理解为系统支持的数据格式,常见的数据源包括以下六种
1、网络流量
网络流量是最常见的数据源之一,主要分为网络全流量和Netflow两种。
网络流量包含完整的网络数据,即TCP/IP协议栈的数据,比如MAC头,IP头、TCP头、Http头及Http载荷数据,对于分析网络中的攻击行为帮助非常大。
Netflow提供网络流量的会话级视图,记录了每个TCP/IP事务的信息。也许不能像全流量那样提供完整记录,但是当汇聚起来时,它更易于管理和分析。
常见的网络全流量获取方式为交换机镜像、分光镜】和网络分流器三种
2、文件
文件是数据最基本的保存形式,常见的有CVS、XMl、JSON以及各类日志文件。
3、Syslog
Syslog协议属于一种主从式协议,发送端会发送一个小的文本信息(小于1024字节)到Syslog接收端,常见的网络设备,安全设备以及发行版的Linux系统都支持把日志以Syslog协议发送出来。
Linux发行版Syslog的配置文体位于如下路径:
/etc/syslog.conf
通过编辑配置文体在文件尾增加一行语句即可把Syslog发送给远端的Syslog服务器:
*.* @192.168.1.2
4、SNMP
SNMP是基于TCP/IP协议族的网络管理标准,是一种管理网络节点(如服务器、工作站、路由器、交换机等)的标准协议。SNMP是能使网络管理员提高管理能效,及时发现并解决网络问题以及优化网络。网络管理员还可以通过SNMP接收网络节点的通知消息和告警事件报告,从而获知网络出现的问题。
5、数据库
当数据保存在数据库中,并且不时可能发生变化,这时就需要定时甚至实时从数据库中同步数据,通常基于JDBC来完成这些任务。
6、爬虫
当数据保存在第三方业务系统数据库中,数据时刻可能发生变化并且无法直接访问该数据库时,可以使用爬虫通过调用API、直接抓取网页或者访问文件的方式进行数据存取。比如员工邮箱异地登录检测时,为了排除员工出差或者外出的误报,需要从ERP中定时同步员工的差旅情况以及门禁系统中员工的打卡情况,这就需要使用爬虫从ERP和门禁系统的API中爬取数据