原子(atom)数据结构接口与实现

本文差不多照搬《C语言接口与实现》的第三章,原子。

书上介绍:原子是一个指针,指向唯一不可变的序列,序列中包含零个或多个字节。好像很难理解的样子。。。

还是先看一下接口:

int Atom_length(const char *str); const char *Atom_new(const char *str, int len); const char *Atom_string(const char *str); const char *Atom_int(long n);

然后是实现(PS:由于本人懒,所以一些地方例如创建内存的函数就用标准库的):

#include "atom.h" #include <string.h> #include <stdlib.h> #define NELEMS(x) (sizeof(x) / (sizeof((x)[0]))) static unsigned long scatter[] = { 2078917053, 143302914, 1027100827, 1953210302, 755253631, 2002600785, 1405390230, 45248011, 1099951567, 433832350, 2018585307, 438263339, 813528929, 1703199216, 618906479, 573714703, 766270699, 275680090, 1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 1636505764, 980071615, 1011597961, 643279273, 1315461275, 157584038, 1069844923, 471560540, 89017443, 1213147837, 1498661368, 2042227746, 1968401469, 1353778505, 1300134328, 2013649480, 306246424, 1733966678, 1884751139, 744509763, 400011959, 1440466707, 1363416242, 973726663, 59253759, 1639096332, 336563455, 1642837685, 1215013716, 154523136, 593537720, 704035832, 1134594751, 1605135681, 1347315106, 302572379, 1762719719, 269676381, 774132919, 1851737163, 1482824219, 125310639, 1746481261, 1303742040, 1479089144, 899131941, 1169907872, 1785335569, 485614972, 907175364, 382361684, 885626931, 200158423, 1745777927, 1859353594, 259412182, 1237390611, 48433401, 1902249868, 304920680, 202956538, 348303940, 1008956512, 1337551289, 1953439621, 208787970, 1640123668, 1568675693, 478464352, 266772940, 1272929208, 1961288571, 392083579, 871926821, 1117546963, 1871172724, 1771058762, 139971187, 1509024645, 109190086, 1047146551, 1891386329, 994817018, 1247304975, 1489680608, 706686964, 1506717157, 579587572, 755120366, 1261483377, 884508252, 958076904, 1609787317, 1893464764, 148144545, 1415743291, 2102252735, 1788268214, 836935336, 433233439, 2055041154, 2109864544, 247038362, 299641085, 834307717, 1364585325, 23330161, 457882831, 1504556512, 1532354806, 567072918, 404219416, 1276257488, 1561889936, 1651524391, 618454448, 121093252, 1010757900, 1198042020, 876213618, 124757630, 2082550272, 1834290522, 1734544947, 1828531389, 1982435068, 1002804590, 1783300476, 1623219634, 1839739926, 69050267, 1530777140, 1802120822, 316088629, 1830418225, 488944891, 1680673954, 1853748387, 946827723, 1037746818, 1238619545, 1513900641, 1441966234, 367393385, 928306929, 946006977, 985847834, 1049400181, 1956764878, 36406206, 1925613800, 2081522508, 2118956479, 1612420674, 1668583807, 1800004220, 1447372094, 523904750, 1435821048, 923108080, 216161028, 1504871315, 306401572, 2018281851, 1820959944, 2136819798, 359743094, 1354150250, 1843084537, 1306570817, 244413420, 934220434, 672987810, 1686379655, 1301613820, 1601294739, 484902984, 139978006, 503211273, 294184214, 176384212, 281341425, 228223074, 147857043, 1893762099, 1896806882, 1947861263, 1193650546, 273227984, 1236198663, 2116758626, 489389012, 593586330, 275676551, 360187215, 267062626, 265012701, 719930310, 1621212876, 2108097238, 2026501127, 1865626297, 894834024, 552005290, 1404522304, 48964196, 5816381, 1889425288, 188942202, 509027654, 36125855, 365326415, 790369079, 264348929, 513183458, 536647531, 13672163, 313561074, 1730298077, 286900147, 1549759737, 1699573055, 776289160, 2143346068, 1975249606, 1136476375, 262925046, 92778659, 1856406685, 1884137923, 53392249, 1735424165, 1602280572 }; static struct atom { struct atom *link; int len; char *str; }*buckets[2048]; int Atom_length(const char *str) { struct atom *p; int i; for(i = 0; i < NELEMS(buckets); i++){ for(p = buckets[i]; p; p = p->link) if(p->str == str) return p->len; } return 0; } const char *Atom_new(const char *str, int len) { unsigned long h; int i; struct atom *p; for(h = 0, i = 0; i < len; i++) h = (h << 1) + scatter[(unsigned char)str[i]]; h %= NELEMS(buckets); for(p = buckets[h]; p; p = p->link){ if(len == p->len){ for(i = 0; i < len && p->str[i]; ) i++; if(i == len) return p->str; } } p = malloc(sizeof(*p) + len + 1); p->len = len; p->str = (char*)(p + 1); if(len > 0) memcpy(p->str, str, len); p->str[len] = '\0'; p->link = buckets[h]; buckets[h] = p; return p->str; } const char *Atom_string(const char *str) { return Atom_new(str, strlen(str)); } const char *Atom_int(long n) { char str[43]; char *s = str + sizeof(str); unsigned long m; if (n < 0) m = -n; else m = n; do { *--s = m % 10 + '0'; } while ((m /= 10) > 0); if (n < 0) *--s = '-'; return Atom_new(s, (str + sizeof(str) - s)); }

实现要用到string.h和stdlib.h这两个库,简单用过后,大概了解用法。其实原子就是将字符串,如果系整数就转化为字符串。然后呢,字符串的地址储存起来,这就增加了一点功能,如唯一性,所以比较字符串是否相同就可以通过简单的比较指针地址是否相同。而储存方式系用散列结构储存字符串的指针(也可以说是地址,就是一个整数),而搜索储存数据速度快是散列的优点,所以原子的Atom_new函数效率还是不错的。
不知道是这本书的原作者语言表达有问题,还是译者表达有问题。总是觉得表述得怪怪的。。
例如:Atom_int必须处理二进制补码表示的整数非对称范围,以及C语言的除法和模运算的二义性。
其实就是,Atom_int函数要处理有符号数,然后后面真的不知道什么意思。不过,我觉得模运算比较费时,所以修改了一下。

const char *Atom_int(long n) { char str[43]; char *s = str + sizeof(str); unsigned long m; char signed_flag = 0; if (n < 0){ n = -n; signed_flag = 1; } do { m = n; n /= 10; *--s = (m - 10 * n) + '0'; } while (n); if (signed_flag) *--s = '-'; return Atom_new(s, (str + sizeof(str) - s)); }

还有这一章的习题,有一体不太会,就将Atom_length函数速度比较慢,修改Atom的实现,以调整速度。我想一开始想用计算出哈希值再搜索链表,但用到strlen函数,所以我觉得还不如用strlen好了。
其实原子的用法相比链表,还是比较少的。是作为表或者集合的数据结构中的键应该比较多,因为比较是否相同比较快速。这种快速的是因为在原子初始化的时候,将比较的代码提前。
如果用在命令行方式还是不错的,例如,一个字符串命令对应一个函数,用表的结构,键是字符串,值的函数地址。


do {
*-- s = m % 10 + '0' ;
} while (( m /= 10 ) > 0 );
if ( n < 0 )
*-- s = '-' ;
return Atom_new ( s , ( str + sizeof ( str ) - s ));

}


来自:http://jogeeker.blog.163.com/blog/static/210984052201392842833576/

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值