一篇让你学会雪花算法

开发 前端 算法
以前用rand和srand生成过伪随机数,伪随机数的序列是固定的,今天学习生成真正的随机数的生成。

 [[419666]]

前言

大家好,我是盼盼!

以前用rand和srand生成过伪随机数,伪随机数的序列是固定的,今天学习生成真正的随机数的生成。

熵池

利用/dev/urandom可以生成随机数的值,/dev/urandomLinux下的熵池,所谓熵池就是当前系统下的环境噪音,描述了一个系统的混乱程度,环境噪音由这几个方面组成,如内存的使用,文件的使用量,不同类型的进程数量等等。

利用/dev/urandom可以生成随机数的值,/dev/urandomLinux下的熵池,所谓熵池就是当前系统下的环境噪音,描述了一个系统的混乱程度,环境噪音由这几个方面组成,如内存的使用,文件的使用量,不同类型的进程数量等等。

  1. #include <stdio.h> 
  2. #include <fcntl.h> 
  3.  
  4. int main() 
  5.         int randNum = 0; 
  6.         int fd = 0; 
  7.  
  8.     for(int i=0;i<5;i++) 
  9.     {       
  10.       fd = open("/dev/urandom", O_RDONLY);   
  11.       read(fd, (char *)&randNum, sizeof(int)); 
  12.       close(fd);  
  13.       printf("randNum is %d\n", randNum); 
  14.     } 
  15.  
  16.         return 0; 

运行结果:

  1. mapan@mapan-virtual-machine:~/c++$ ./a.out  
  2. randNum is 94961710 
  3. randNum is -523780773 
  4. randNum is 1542169420 
  5. randNum is -1632410867 

每次打印的5个随机数都不一样,其实它的随机性也不太好。雪花算法生成的数的随机性很好,通常在分布式系统中生成唯一ID。

雪花算法

SnowFlake算法产生的ID是一个64位的整型,结构如下(每一部分用“-”符号分隔):

0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 00000000000

1位标识部分,在java中由于long的最高位是符号位,正数是0,负数是1,一般生成的ID为正数,所以为0;

41位时间戳部分,这个是毫秒级的时间,一般实现上不会存储当前的时间戳,而是时间戳的差值(当前时间-固定的开始时间),这样可以使产生的ID从更小值开始;41位的时间戳可以使用69年,(1L << 41) / (1000L 60 60 24 365) = 69年;

10位节点部分,Twitter实现中使用前5位作为数据中心标识,后5位作为机器标识,可以部署1024个节点;

12位序列号部分,支持同一毫秒内同一个节点可以生成4096个ID;

  1. /*  
  2.     snowflake  
  3.  
  4.     ID 生成策略  
  5.     毫秒级时间41位+机器ID 10位+毫秒内序列12位。 
  6.     0 41 51 64 +-----------+------+------+ |time |pc |inc | +-----------+------+------+  
  7.     前41bits是以微秒为单位的timestamp。 
  8.     接着10bits是事先配置好的机器ID。 
  9.     最后12bits是累加计数器。 
  10.     macheine id(10bits)标明最多只能有1024台机器同时产生ID,sequence number(12bits)也标明1台机器1ms中最多产生4096个ID, *  
  11.       注意点,因为使用到位移运算,所以需要64位操作系统,不然生成的ID会有可能不正确  
  12. */   
  13.  
  14. #include <stdio.h>   
  15. #include <pthread.h>   
  16. #include <unistd.h>   
  17. #include <stdlib.h>   
  18. #include <sched.h>   
  19. #include <linux/unistd.h>   
  20. #include <sys/syscall.h>   
  21. #include <errno.h>   
  22. #include<linux/types.h>   
  23. #include<time.h>   
  24. #include <stdint.h>   
  25. #include <sys/time.h>   
  26.  
  27. struct  globle   
  28. {   
  29.     int global_int:12;   
  30.     uint64_t last_stamp;   
  31.     int workid;   
  32.     int seqid;   
  33. };   
  34.  
  35. void set_workid(int workid);   
  36. pid_t gettid( void );   
  37. uint64_t get_curr_ms();   
  38. uint64_t wait_next_ms(uint64_t lastStamp);   
  39. int atomic_incr(int id);   
  40. uint64_t get_unique_id(); 
  1. #include "snowflake.h" 
  2.  
  3. struct globle g_info; 
  4.  
  5. #define   sequenceMask  (-1L ^ (-1L << 12L))  //L表示long型     4095 
  6.  
  7. void set_workid(int workid) 
  8.  g_info.workid = workid; 
  9.  
  10. pid_t gettid( void )//获取线程ID 
  11.   return syscall( __NR_gettid ); 
  12.  
  13. uint64_t get_curr_ms()  //获取毫秒 
  14.   struct timeval time_now; 
  15.   gettimeofday(&time_now,NULL); 
  16.   uint64_t ms_time =time_now.tv_sec*1000+time_now.tv_usec/1000; 
  17.   return ms_time; 
  18.  
  19. uint64_t wait_next_ms(uint64_t lastStamp) 
  20.   uint64_t cur = 0; 
  21.   do { 
  22.     cur = get_curr_ms(); 
  23.   } while (cur <= lastStamp); 
  24.   return cur; 
  25.  
  26. int atomic_incr(int id)//累加 
  27.   __sync_add_and_fetch(&id, 1); 
  28.   return id; 
  29.  
  30. uint64_t get_unique_id() 
  31.   uint64_t  uniqueId=0; 
  32.   uint64_t nowtime = get_curr_ms();//获取当前毫秒数 
  33.  
  34.   uniqueId = nowtime << 22;   //填补时间戳部分 
  35.  
  36.   //0x3ff 1023,二进制对应11 1111 1111  
  37.   //100的二进制0000 0000 0000 0000 0000 0000 0110 0100 
  38.   //先执行移位 
  39.   uniqueId |= (g_info.workid & 0x3ff) << 12;   //填补节点部分 
  40.  
  41.   if (nowtime < g_info.last_stamp) 
  42.   { 
  43.     perror("error"); 
  44.     exit(-1); 
  45.   } 
  46.  
  47.   if (nowtime == g_info.last_stamp) 
  48.   { 
  49.     //4095的二进制0000 1111 1111 1111      [long型] 
  50.     g_info.seqid = atomic_incr(g_info.seqid) & sequenceMask; 
  51.     if (g_info.seqid == 0)  //seqid=0防止冲突,修改时间 
  52.     { 
  53.       nowtime = wait_next_ms(g_info.last_stamp);//获取大于当前时间的time 
  54.     } 
  55.   } 
  56.   else 
  57.   { 
  58.     g_info.seqid  = 0; 
  59.   } 
  60.   g_info.last_stamp = nowtime; 
  61.  
  62.   uniqueId |= g_info.seqid;//填补序列号部分 
  63.   return uniqueId; 
  64.  
  65. int main() 
  66.   set_workid(100); 
  67.   int i; 
  68.   for(i=0;i<10;i++) 
  69.   { 
  70.     uint64_t unquie = get_unique_id(); 
  71.     printf("pthread_id:%u, id [%llu]\n",gettid(),unquie); 
  72.   } 
  73.  
  74.   return;   

运行结果:

  1. mapan@mapan-virtual-machine:~/c++$ ./a.out  
  2. pthread_id:4970, id [6595660141600063488] 
  3. pthread_id:4970, id [6595660141600063489] 
  4. pthread_id:4970, id [6595660141600063490] 
  5. pthread_id:4970, id [6595660141600063491] 
  6. pthread_id:4970, id [6595660141600063492] 

结尾

雪花算法很多大厂都在使用,随机性比熵池要好。雪花算法的思想在平时工作中也有用到,将多个数据拼到一个值里面是常用套路,要掌握。

责任编辑:武晓燕 来源: 盼盼编程
相关推荐

2021-09-14 07:26:26

组合问题循环

2022-08-29 08:00:11

哈希表数组存储桶

2022-02-11 08:45:28

通信协议CAN

2022-03-04 21:06:46

spring事务失效

2022-03-04 08:17:53

PageRank网络等级

2022-02-07 11:01:23

ZooKeeper

2022-01-02 08:43:46

Python

2022-06-04 07:46:41

HeapJVM

2020-09-23 10:59:00

开发技能代码

2021-10-27 09:59:35

存储

2021-07-02 08:51:29

源码参数Thread

2022-04-12 08:30:52

回调函数代码调试

2023-03-13 21:38:08

TCP数据IP地址

2023-11-01 09:07:01

Spring装配源码

2021-10-29 07:35:32

Linux 命令系统

2021-10-14 10:22:19

逃逸JVM性能

2022-10-20 07:39:26

2022-11-14 08:17:56

2021-04-29 10:18:18

循环依赖数组

2022-03-11 10:21:30

IO系统日志
点赞
收藏

51CTO技术栈公众号