基于机器学习的恶意url检测模型

北地听风

已于 2025-03-25 17:58:00 修改

阅读量310

点赞数 3

文章标签： python lstm 机器学习随机森林安全

于 2025-03-25 17:10:51 首次发布

本文链接：https://blog.csdn.net/weixin_63871119/article/details/146507652

版权

代码在最下方

在21世纪的信息时代，互联网已经成为全球范围内信息交流、商业活动、教育学习和社会交往的重要平台。随着电子商务和在线服务的蓬勃发展，网络空间的安全问题日益凸显，尤其是网络钓鱼攻击，已经成为网络安全领域面临的重大挑战之一。网络钓鱼攻击通过构建假冒的官方网站或发送欺诈性的电子邮件，诱骗用户泄露敏感信息，如用户名、密码、信用卡信息等，给用户和企业带来不同程度的经济损失和隐私风险。

近年来，网络钓鱼攻击的手法不断翻新，从最初的简单模仿到现在的高度仿真，其复杂性和隐蔽性不断增强。据了解，全球因网络钓鱼攻击导致的损失每年高达数十亿美元，且这一数字还在不断上升。这些攻击不仅损害用户的经济利益，还对企业和机构声誉造成了严重影响。因此，如何有效识别和防范网络钓鱼攻击，已成为网络安全领域亟待解决的问题。

钓鱼URL（Uniform Resource Locator）是一种网络钓鱼攻击手段，攻击者通过创建与合法网站相似的虚假网站，诱骗用户访问并输入个人敏感信息，从而窃取用户的银行账号、密码、身份证号码等重要数据，对个人、企业和整个社会造成严重的危害。以下是钓鱼URL危害的详细分析：

对个人的危害

财务损失：钓鱼URL的主要目的是窃取用户的财务信息，如银行账号、信用卡信息等。一旦用户在钓鱼网站上输入这些信息，攻击者就可以利用这些信息进行非法转账、消费等操作，导致用户遭受巨大的经济损失。

身份盗窃：钓鱼网站会收集用户的个人身份信息，如身份证号码、电话号码、地址等。这些信息被窃取后，攻击者可以冒用用户的身份进行各种非法活动，如申请贷款、信用卡，甚至进行犯罪行为，给用户带来极大的麻烦和损失。

恶意软件感染：一些钓鱼网站会通过恶意链接或下载的文件来传播恶意软件，如木马、病毒等。这些恶意软件一旦进入用户的设备，可能会窃取更多的个人信息，甚至控制用户的设备，进一步威胁用户的安全。

对企业的危害

业务中断和经济损失：钓鱼攻击可能导致企业内部系统被入侵，敏感数据被盗取，甚至引发系统崩溃或网络瘫痪，严重影响企业的正常运营，造成巨大的经济损失。

声誉和信任度下降：如果企业的客户因访问钓鱼网站而遭受损失，会对企业的声誉造成严重损害，降低客户对企业的信任度，进而影响企业的市场份额和品牌形象。

法律风险：企业可能因未能有效保护客户信息而面临法律诉讼和监管处罚。

对社会的危害

信息安全威胁：钓鱼URL攻击增加了社会的信息安全风险，可能导致大量个人信息泄露，被不法分子利用进行各种犯罪活动，影响社会的稳定和安全。

社会信任危机：频繁的网络钓鱼攻击会降低公众对网络安全的信任度，增加社会的不安全感，对社会的和谐稳定造成潜在威胁。

下面说一下基于机器学习的钓鱼URL检测系统的好处

基于机器学习的钓鱼URL检测系统在网络安全领域具有显著的优势，能够有效提升检测效率和准确性，为个人和企业提供更强大的保护。以下是基于机器学习的钓鱼URL检测系统的主要好处：

高检测精度：

机器学习模型能够分析大量数据，包括网络流量、系统日志和用户行为模式，从中发现异常并检测潜在威胁。通过这些数据，模型可以更准确地识别钓鱼URL。

实时检测：

机器学习模型可以实时分析和检测钓鱼URL，及时发现并阻止潜在的网络钓鱼攻击。这种实时性对于保护用户免受最新出现的钓鱼威胁至关重要。

自适应学习：

机器学习模型具有自适应学习能力，能够随着新的钓鱼尝试被识别和分析，不断改进其检测能力。这意味着系统可以适应不断演变的威胁，保持高效的检测性能。

减少误报：

相比传统的基于规则的检测系统，机器学习模型能够更有效地减少误报。通过学习正常行为模式，模型可以更准确地识别异常行为，从而减少误报，提高检测的可靠性。

可扩展性：

机器学习模型能够适应不断变化的网络环境和更大的数据量。这在现代网络系统和动态环境中非常重要，因为传统的外围防御可能并不足够。

多维度分析：

机器学习模型可以结合多种特征进行分析，如URL的长度、特殊字符数量、域名等，从而更全面地评估URL的合法性。这种多维度的分析提高了检测的准确性和可靠性。

用户行为分析：

机器学习系统可以建立企业内正常用户行为的基线，标记出偏离这些模式的活动，包括异常登录位置、非典型文件访问或意外通信模式。这有助于识别潜在的钓鱼攻击。

自然语言处理：

先进的自然语言处理功能使机器学习系统能够理解电子邮件中所用语言的细微差别，帮助识别可能表明存在钓鱼企图的微妙线索。

威胁情报集成：

机器学习驱动的系统可以持续摄取和分析威胁情报馈送，迅速将有关新出现的网络钓鱼策略和攻击载体的新信息纳入其检测模型。这使得系统能够及时应对最新的威胁。

情境分析：

在评估潜在威胁时，机器学习系统可以考虑广泛的背景因素，如发件人与收件人的关系、业务性质以及可能在网络钓鱼活动中被利用的当前事件。这种情境分析提高了检测的准确性和相关性

实际应用场景

企业级安全防护：

大型公司或金融机构可以将基于机器学习的钓鱼URL检测系统嵌入内部防火墙系统，有效过滤员工浏览网页时可能遇到的危险链接，降低机密信息泄露风险。

个人隐私保护：

普通网民可以利用该工具自我检测疑似恶意邮件中的链接安全性，避免因点击而导致的财产损失和个人信息安全问题。

教育与研究：

对于学术界而言，基于机器学习的钓鱼URL检测项目不仅提供了现成的解决方案，还展示了完整的开发过程和技术栈选择策略，是教学演示的理想案例。

下面是模型代码：


import re
import numpy as np
import pandas as pd
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense
from tensorflow.keras.models import Model
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.preprocessing import StandardScaler


# 数据预处理模块


def load_data(file_path):
    """加载数据集示例格式：csv文件包含'url'和'label'两列"""
    df = pd.read_csv(file_path)
    return df['url'].values, df['label'].values


file_path = "xxxxxxxxx\\xxxxxxx\\xxxxxxxxx.csv"
urls, labels = load_data(file_path)
print(urls, labels)


def clean_data(urls, labels):
    """数据清洗函数"""
    # 创建DataFrame以便于操作
    df = pd.DataFrame({'url': urls, 'label': labels})

    # 处理缺失值
    df.dropna(inplace=True)  # 删除包含缺失值的行

    # 处理重复数据
    df.drop_duplicates(inplace=True)  # 删除重复的行

    # 处理异常值（例如，异常长的URL）
    max_length = 2000  # 定义正常URL的最大长度
    df['url_length'] = df['url'].apply(lambda x: len(x))
    df = df[df['url_length'] <= max_length]  # 删除过长的URL

    # 统一文本格式
    df['url'] = df['url'].str.lower()  # 转换为小写
    df['url'] = df['url'].str.strip()  # 去除首尾空格

    # 更新urls和labels
    urls = df['url'].values
    labels = df['label'].values

    return urls, labels


def url_to_ascii(url, max_length=200):
    """将URL转换为ASCII编码序列并填充/截断到固定长度"""
    # 转换为ASCII码序列（0-127）
    ascii_seq = [ord(c) for c in url if ord(c) < 128]
    # 填充/截断处理
    padded_seq = pad_sequences([ascii_seq], maxlen=max_length, padding='post', truncating='post')[0]
    return padded_seq


def preprocess_data(urls, labels, max_length=200):
    """数据预处理主函数"""
    # ASCII编码转换
    X_ascii = np.array([url_to_ascii(url, max_length) for url in urls])
    # 标签处理
    y = np.array(labels)
    return X_ascii, y


# LSTM模型构建（使用 Functional API）

def build_lstm_model(input_dim=128, embedding_dim=100, lstm_units=128):
    # 显式定义输入层
    inputs = Input(shape=(None,), name='input_layer')
    # Embedding 层
    x = Embedding(input_dim=input_dim, output_dim=embedding_dim, mask_zero=True)(inputs)
    # LSTM 层
    x = LSTM(lstm_units, return_sequences=False)(x)
    # 特征层（命名用于后续提取）
    features = Dense(64, activation='relu', name='feature_layer')(x)
    # 分类输出层
    outputs = Dense(1, activation='sigmoid')(features)
    # 构建完整模型
    model = Model(inputs=inputs, outputs=outputs)
    return model


def extract_lstm_features(model, X_ascii):
    """提取LSTM高级特征"""
    features = model.predict(X_ascii)
    return features



# 主流程

if __name__ == "__main__":
    # 1. 加载数据
    urls, labels = load_data("test_urls_1.csv")

    # 2. 数据清洗
    urls, labels = clean_data(urls, labels)

    # 3. 预处理
    X_ascii, y = preprocess_data(urls, labels)

    # 4. 划分数据集（修改后：保留URL索引）
    indices = np.arange(len(urls))
    train_indices, test_indices = train_test_split(
        indices,
        test_size=0.2,
        stratify=y,
        random_state=42
    )
    X_train, X_test = X_ascii[train_indices], X_ascii[test_indices]
    y_train, y_test = y[train_indices], y[test_indices]
    urls_test = urls[test_indices]  # 获取测试集URL

    # 5. 训练完整模型
    lstm_model = build_lstm_model(input_dim=128, embedding_dim=100, lstm_units=128)
    lstm_model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    lstm_model.fit(X_train, y_train, epochs=10, batch_size=64, validation_split=0.1)

    # 6. 创建特征提取器（直接从原模型提取中间层）
    feature_extractor = Model(
        inputs=lstm_model.input,  # 输入为原模型的输入
        outputs=lstm_model.get_layer('feature_layer').output  # 输出为特征层
    )

    # 7. 提取LSTM特征
    train_lstm_feats = feature_extractor.predict(X_train)
    test_lstm_feats = feature_extractor.predict(X_test)

    # 8. 标准化特征
    scaler = StandardScaler()
    train_features = scaler.fit_transform(train_lstm_feats)
    test_features = scaler.transform(test_lstm_feats)

    # 9. 训练随机森林
    rf = RandomForestClassifier(
        n_estimators=200,
        max_depth=15,
        class_weight='balanced',
        random_state=42
    )
    rf.fit(train_features, y_train)

    # 10. 评估并计算置信度
    y_proba = rf.predict_proba(test_features)  # 获取概率预测
    y_pred = rf.predict(test_features)
    confidence = y_proba[np.arange(len(y_pred)), y_pred]  # 动态选择对应类别的概率

    # 生成结果DataFrame
    results_df = pd.DataFrame({
        'url': urls_test,
        'true_label': y_test,
        'predicted_label': y_pred,
        'confidence': confidence
    })

    # 打印分类报告和置信度统计
    print(classification_report(y_test, y_pred, target_names=['正常', '钓鱼']))
    print("\n置信度统计：")
    print(f"平均置信度: {np.mean(confidence):.2%}")
    print(f"正确预测的置信度均值: {np.mean(confidence[y_pred == y_test]):.2%}")
    print(f"错误预测的置信度均值: {np.mean(confidence[y_pred != y_test]):.2%}")

    # 11. 保存模型和结果
    results_df.to_csv("prediction_results_with_confidence.csv", index=False)
    feature_extractor.save("lstm_feature_extractor.h5")
    import joblib

    joblib.dump(rf, "random_forest_model.pkl")
    joblib.dump(scaler, "feature_scaler.pkl")

    # 12. 保存特征到CSV
    pd.DataFrame(train_lstm_feats).to_csv("train_lstm_features.csv", index=False)
    pd.DataFrame(test_lstm_feats).to_csv("test_lstm_features.csv", index=False)