哈希运用于大数据查找中

使用哈希,实现6428633条CSDN账户数据的简单查询

#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>
char path[256] = "E:\\Big_Data\\csdn.txt";
#define N 6428633
unsigned int BKDRHash(char *str);
struct   beitai
{
	char *pstr;//存储字符串
	struct   beitai *pNext;//下一个节点
};
struct info
{
	struct   beitai *pbt;
};
struct info *pall = NULL;
//插入
struct   beitai *addstr(struct   beitai *phead, char *str)
{
	struct   beitai *pnew = calloc(1, sizeof(struct   beitai));//开辟节点
	int length = strlen(str);
	pnew->pstr = calloc(length + 1, sizeof(char));
	strcpy(pnew->pstr, str);//拷贝
	pnew->pNext = NULL;
	if (phead==NULL)
	{
		phead = pnew;
	} 
	else
	{
		pnew->pNext = phead;
		phead = pnew;
	}
	return phead;
}
//实现修改,查询
void find(struct   beitai *phead, char *findstr)
{
	while (phead!=NULL)
	{
		char*ps = strstr(phead->pstr, findstr);
		if (ps!=NULL)
		{
			printf("%s", phead->pstr);//查找
		}
		phead = phead->pNext;
	}
}
void changestr(char *str)
{
	char *pbak = str;//备份地址
	//去除‘’字符
	int i = 0;
	int j = 0;
	while ((str[i] = str[j++]) != '\0')
	{
		if (str[i] != ' ')
		{
			i++;
		}
	}
	//截断
	char *p1 = strstr(pbak, "#");
	if (p1 != NULL)
	{
		*p1 = '\0';
	}
}
void init()
{
	pall = malloc(N*sizeof(struct info));
	memset(pall, 0, N*sizeof(struct info));//清空
	FILE *pf = fopen(path, "r");
	for (int i = 0; i < N; i++)
	{
		char str[100] = { 0 };
		char strbak[100] = { 0 };//备份
		fgets(str, 100, pf);//读取
		strcpy(strbak, str);//拷贝
		changestr(str);//字符串处理
		unsigned int  data = BKDRHash(str);
		unsigned int id = data %N;
		pall[id].pbt = addstr(pall[id].pbt, strbak);//找到链表节点,插入
	}
	fclose(pf);
}
unsigned int BKDRHash(char *str)
{
	unsigned int seed = 13131313; // 31 131 1313 13131 131313 etc..
	unsigned int hash = 0;
	while (*str)
	{
		hash = hash * seed + (*str++);
	}
	return (hash & 0x7FFFFFFF);
}
int getN()
{
	FILE *pf = fopen(path, "r");
	if (pf == NULL)
	{
		return -1;
	}
	else
	{
		int i = 0;
		while (!feof(pf))
		{
			char str[100] = { 0 };
			fgets(str, 100, pf);//读取
			i++;
		}
		fclose(pf);
		return i;
	}
}
//实现查询有冲突(相同的)数据
void main()
{
	printf("此数据一共有:%d行\n", getN());
	init();
	while (1)
	{
		char str[100] = { 0 };
		scanf("%s", str);
		unsigned int id = BKDRHash(str) % N;
		find(pall[id].pbt, str);
	}
	system("pause");
}


更多资料 · 微信公众号搜索【CTO Plus】关注后,获取更多,我们一起学习交流。

关于公众号的描述访问如下链接


关于Articulate“做一个知识和技术的搬运工。做一个终身学习的爱好者。做一个有深度和广度的技术圈。”一直以来都想把专业领域的技https://mp.weixin.qq.com/s/0yqGBPbOI6QxHqK17WxU8Q

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SteveRocket

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值