【数组】散列统计（gpt）-CSDN博客

本文链接：https://blog.csdn.net/weixin_73859107/article/details/137892284

数组的散列统计是一种数据处理技术，用于统计数组中各元素出现的频率。它通过散列函数将元素映射到一个散列表（也称为计数表）中的特定位置，然后在该位置上进行计数。其原理是利用散列函数将元素映射到散列表中的索引位置，从而实现快速的频率统计。

原理：

散列函数选择：选择一个合适的散列函数，使得元素能够均匀地映射到散列表中的位置，尽可能避免碰撞（即多个元素映射到同一个位置）。
散列表初始化：创建一个散列表，初始化所有位置为0，用于存储每个元素的计数。
映射与计数：对数组中的每个元素，利用散列函数计算其散列值，然后在散列表中对应位置进行计数。
频率统计：遍历整个数组后，散列表中各位置的值即为对应元素出现的频率。

应用场景：

文本处理：统计文本中各个单词的出现频率。
数据分析：分析数据集中各个数据项的分布情况。
编程竞赛：在编程竞赛中，统计某个字符或单词在给定字符串中的出现次数。
网络安全：统计网络流量中不同类型数据包的数量。

C语言实现：

下面是一个简单的C语言实现，用于统计数组中各元素的出现频率：

#include <stdio.h>

#define MAX_SIZE 100
#define HASH_SIZE 101 // 散列表大小

// 散列表节点
typedef struct HashNode {
    int key;
    int count;
} HashNode;

// 散列表
HashNode hashTable[HASH_SIZE];

// 初始化散列表
void initHashTable() {
    for (int i = 0; i < HASH_SIZE; i++) {
        hashTable[i].key = -1; // 初始化键值为-1，表示未使用
        hashTable[i].count = 0;
    }
}

// 散列函数：简单取余
int hashFunction(int key) {
    return key % HASH_SIZE;
}

// 插入键值对到散列表
void insert(int key) {
    int index = hashFunction(key);
    while (hashTable[index].key != -1 && hashTable[index].key != key) {
        index = (index + 1) % HASH_SIZE; // 线性探测解决冲突
    }
    if (hashTable[index].key == -1) {
        hashTable[index].key = key;
    }
    hashTable[index].count++;
}

// 统计数组中各元素的频率
void countFrequency(int arr[], int n) {
    initHashTable();
    for (int i = 0; i < n; i++) {
        insert(arr[i]);
    }
}

// 打印各元素的频率
void printFrequency() {
    for (int i = 0; i < HASH_SIZE; i++) {
        if (hashTable[i].key != -1) {
            printf("%d 出现的次数：%d\n", hashTable[i].key, hashTable[i].count);
        }
    }
}

int main() {
    int arr[MAX_SIZE] = {2, 3, 4, 5, 2, 3, 4, 5, 2, 3};
    int n = 10;
    countFrequency(arr, n);
    printFrequency();
    return 0;
}