字符串结构

最新推荐文章于 2022-11-16 14:20:35 发布

Dave888Zhou

最新推荐文章于 2022-11-16 14:20:35 发布

阅读量1.9k

点赞数

分类专栏：算法与数据结构文章标签：数据结构文档算法 iterator struct null

本文链接：https://blog.csdn.net/zhoudaxia/article/details/5669926

版权

算法与数据结构专栏收录该内容

20 篇文章 0 订阅

订阅专栏

字符串是一种最基本的数据结构。
问题1（单词级别）：对文档中每个单词出现次数进行统计。例如圣经中大约有29131个不同的单词，统计其出现次数。
（1）用标准模板库的映射结构map来实现：set，map等容器一般是用平衡树来实现的。

#include <iostream> #include <string> #include <map> using namespace std; int main(void){ map<string,int> M; map<string,int>::iterator j; string t; while(cin>>t) M[t]++; for(j=M.begin();j!=M.end();++j) cout<<j->first<<" "<<j->second<<endl; return 0; }

（2）用散列表结构来实现：使用离29131最近的素数29989作为散列表大小。散列表结点包含指向单词的指针、单词出现频率以及指向下一结点的指针。散列函数通过一个乘数MULT把每个单词映射为一个小于29989的正整数（即在散列表中的地址）。

#include <stdio.h> #include <stdlib.h> #include <string.h> #define NHASH 29989 #define MULT 31 typedef struct node *nodeptr; typedef struct node{ char *word; int count; nodeptr next; }node; nodeptr bin[NHASH]; /* 散列表 */ /* 散列函数：使用无符号整数以确保返回的地址为正 */ unsigned int hash(char *p){ unsigned int h=0; for(;*p;p++) h=MULT*h+*p; return h%NHASH; } /* 增加与单词s相关联的计数器 */ void incword(char *s){ unsigned int h=hash(s); nodeptr p; for(p=bin[h];p!=NULL;p=p->next) if(strcmp(s,p->word)==0){ /* 在散列表中找到单词s */ (p->count)++; /* 增加它的计数器 */ return; } /* 若没找到单词s，则把该单词插入到散列表中 */ p=malloc(sizeof(node)); p->count=1; p->word=malloc(strlen(s)+1); strcpy(p->word,s); /* 插入到相应链表的最前面 */ p->next=bin[h]; bin[h]=p; } int main(void){ int i; nodeptr p; char *buf; for(i=0;i<NHASH;++i) bin[i]=NULL; /* 将每个箱初始化为NULL */ while(scanf("%s",buf)!=EOF) /* 读取单词并增加计数 */ incword(buf); for(i=0;i<NHASH;++i) /* 打印单词和计数 */ for(p=bin[i];p!=NULL;p=p->next) printf("%s: %d/n",p->word,p->count); return 0; }

问题2（短语级别）：给定一个文本文件，查找其中最长的重复子字符串。例如banana的最长重复串为ana。输入字符串存储在c[0...n]中。
（1）用穷举策略来实现：由于算法查看所有的字符串对，故时间为O(n**2)，n为整个文件中的字符个数。

/* 返回两个字符串中共同部分的长度 */ int comlen(char *p,char *q) i=0; while *p && (*p++==*q++) i++; return i; /* 算法伪代码 */ maxlen=-1; for i=[0,n) for j=(i,n) if (thislen=comlen(&c[i],&c[j]))>maxlen maxlen=thislen; maxi=i; maxj=j;

（2）用后缀数组来实现：后缀数组a是字符指针数组，指向了字符串的每一个后缀串。a[0]指向整个字符串以c[0]，a[1]指向从第二个字符开始的后缀串（即指向c[1]），依此类推。如果某个串在c中出现两次，那么它将出现在两个不同的后缀中。因此对数组a排序后，就可以扫描数组，通过比较相邻元素来找出最长的重复字符串。假设文本不超过5MB。

#include <stdio.h> #include <string.h> #include <stdlib.h> #define MAXN 5000000 char c[MAXN],*a[MAXN]; /* 字符串及其后缀数组 */ /* 返回两个字符串中共同部分的长度 */ int comlen(char *p,char *q){ int i=0; while(*p && (*p++==*q++)) i++; return i; } int pstrcmp(char **p, char **q){ return strcmp(*p, *q); } int main(void){ char ch; int i,maxi, maxlen=-1,n=0; while((ch=getchar())!=EOF){ a[n]=&c[n]; c[n++]=ch; } c[n]=0; /* 末尾加一空字符，表示字符串结束 */ qsort(a,n,sizeof(char*),pstrcmp); /* 排序：其中比较函数的参数是指向sizeof中的char*的指针，即char**型 */ for(i=0;i<n;++i) if(comlen(a[i],a[i+1])>maxlen){ /* 比较相邻元素以找出最长重复子串 */ maxlen=comlen(a[i],a[i+1]); maxi=i; } /* 使用*精度输出字符串中的maxlen个字符 */ printf("%.*s/n",maxlen,a[maxi]); return 0; }

由于排序的存在，算法需要O(nlogn)运行时间，以及额外的n个指针空间。
问题3（文本级别）：根据输入的文档生成一段随机文本。为使生成的文本接近英文文本，把每个字母设置为其前k字母的函数，我们称为生成k阶文本。比如对2阶文本，th在英文中后面通常跟a, e,i,o,u和y，而跟r和w可能性小一些，跟其他字母的情况很少。这样就能保证生成文本比较接近英文文本。
可以采用后缀数组word来实现，不过数组指向从文档中单词的边界开始，即下一个数组元素指向下一个单词的开始处，而不是下一字符。word相当于指向了文档的每一个后缀短语，读完输入后，对word数组按k连短语（即含有k个单词的短语）进行排序。接着对输入文件的第一个短语，使用二分搜索找到其在word数组中的第一次出现，然后扫描所有相同的短语，并以相同的概率从这些相同的短语中随机选择一个短语，输出这个短语的第k个单词。这里我们设定输出的随机文本总共有10000个单词。

#include <stdio.h> #include <stdlib.h> #include <string.h> char inputchars[4300000]; char *word[800000]; int nword = 0; int k = 2; /* 判断两个字符串的前k个单词是否相同，相同返回0，不相同返回差值 */ int wordncmp(char *p, char* q){ int n = k; /* 扫描两个串，每遇到空字符k就减1 */ for ( ; *p == *q; p++, q++) if (*p == 0 && --n == 0) return 0; return *p - *q; } int sortcmp(char **p, char **q){ return wordncmp(*p, *q); } /* 使p跳到下一个单词处 */ char* skip(char *p, int n){ for ( ; n > 0; p++) if (*p == 0) n--; return p; } int main(){ /* 输出的随机文本含有10000个单词 */ int i, wordsleft = 10000, l, m, u; char *phrase, *p; word[0] = inputchars; while (scanf("%s", word[nword]) != EOF) { /* 读取输入 */ word[nword+1] = word[nword] + strlen(word[nword]) + 1; nword++; } /* 在word数组后面附加k个空字符，然后输出文档的前k个单词 */ for (i = 0; i < k; i++) word[nword][i] = 0; for (i = 0; i < k; i++) printf("%s/n", word[i]); qsort(word, nword, sizeof(word[0]), sortcmp); /* 按k连短语对word数组元素进行排序 */ /* 使用二分搜索找出phrase的k连短语（即前k个单词）在word数组中的第一次出现 */ phrase = inputchars; /* 设置为输入文件的第一个短语 */ for ( ; wordsleft > 0; wordsleft--) { l = -1; u = nword; while (l+1 != u) { m = (l + u) / 2; if (wordncmp(word[m], phrase) < 0) l = m; else u = m; } /* 扫描所有相同的短语，并以相同的概率从这些相同的短语中随机选择一个短语 */ for (i = 0; wordncmp(phrase, word[u+i]) == 0; i++) if (rand() % (i+1) == 0) p = word[u+i]; phrase = skip(p, 1); /* 使p跳到下一个单词处 */ if (strlen(skip(phrase, k-1)) == 0) /* 如果该短语的第k个单词长度为0，则退出循环 */ break; printf("%s/n", skip(phrase, k-1)); /* 输出第k个单词 */ } return 0; }

关键算法设计思想：字符串数据结构、映射结构（名字-值对）、散列表结构、平衡树、后缀数组、穷举策略。