群消息,究竟存1份还是多份?

开发 开发工具
任何技术方案,都不是天才般灵感乍现想到的,一定是一个演进迭代,逐步优化的过程。今天就聊一聊,群消息,为啥只需要存一份。

群消息,究竟存一份还是多份?

任何技术方案,都不是天才般灵感乍现想到的,一定是一个演进迭代,逐步优化的过程。今天就聊一聊,群消息,为啥只需要存一份。

[[375144]]

群信息,用户信息,群成员关系都是基础数据:

  1. group_info(gid, group_info); 
  2. user_info(uid, user_info); 
  3. group_members(gid, uid); 

假设一个群(gid)里有4个成员,其中:

  • 三个在线(A, uid1, uid2);
  • 一个不在线(uid3);

A发送了一条消息,很容易想到,对于不同的群友消息存多份,每个群友一个队列来存储。但由于在线的用户会实时的收到消息,所以暂定只为离线的用户存储。

用户收到的群消息,也是基础数据:

  1. user_msgs(uid,msgid,gid,sender_uid,time,content); 

很容易想到,整个群消息的发送流程如上图1-4:

  • 发送消息;
  • 查询状态;
  • 不在线的存储离线;
  • 在线的实时推送;

“在线的群友不存储,离线的群友才存储”会带来的问题是,如果第四步发生异常,群友会丢失消息。

消息的可达性是聊天系统中最重要的要素(没有之一),故这个方案是不行的,需要优化为“不管是否在线,都要先存储”。

发送群消息的流程优化为,如上图1-4:

  • 发送消息;
  • 所有人都存一份;
  • 查询状态;
  • 在线的实时推送;

先将消息落地,能够保证消息可达性,那何时才能删除已经落地的群消息呢?

对于在线的群友,收到群消息后,给个ack确认,才能删除。

画外音:逻辑删除,还是物理删除,根据业务是否有消息漫游决定。

对于离线的群友,在下次登陆后,拉取完离线消息,再给ack确认,才能删除。

总之,为了保证消息的可达性,不管是在线消息,还是离线消息,必须接收方给ack确认,才能删除消息。

“不管是否在线,都冗余一份群消息”带来的问题是,同一条消息存储了很多次,对磁盘和带宽造成了很大的浪费。很容易想到的优化是:群消息实体存储一份,用户只冗余消息ID。

故基础数据可以由:

  1. user_msgs(uid,msgid,gid,sender_uid,time,content); 

优化为:

  1. group_msgs(msgid,gid,sender_uid,time,content); 
  2. user_msgs(uid, msgid, gid); 

这个优化,对于消息投递,以及消息删除的核心流程没有影响,几个实践为:

  • 在线用户投递消息实体,ack消息ID;
  • 离线用户先拉取消息ID,再拉取消息实体,再ack消息ID;

如此这般,假如在某个群友A期间,群里陆续发送了N条消息,则user_msgs(uid, msgid, gid)里,会有 uidA -> mid1,mid2, mid3, … midN 等N条离线记录,拉取离线消息时,可以把这N条消息一次性拉取出来,然后再删除:

  1. delete from user_msgs  
  2.     where msgid in($mid1,$mid2…, $midN) and gid=$gid 

 然而,群消息具备“偏序”特性,上面的一次性删除完全可以优化为:

  1. delete from user_msgs  
  2.     where msgid >= $mid1 and gid=$gid 

这就意味着,每个用户只需要记录“最近一次收到的消息ID”,而不用记录“所有未收到的消息ID集合”,每当收在线消息ack,以及拉离线消息ack时,只需要更新这个“最近一次收到的消息ID”即可。

于是乎,基础数据可以由:

  1. group_members(gid, uid); 
  2. group_msgs(msgid,gid,sender_uid,time,content); 
  3. user_msgs(uid, msgid, gid); 

优化为:

  1. group_members(gid, uid, last_ack_msgid); 
  2. group_msgs(msgid,gid,sender_uid,time,content); 
  3. user_msgs(uid, msgid, gid); // 不再需要 

即,群消息只存储一份,群友无需冗余任何消息实体,或者消息ID了。

对于在线的群友,收到群消息后,修改这个last_ack_msgid。

对于离线的群友,拉取群消息后,也修改这个last_ack_msgid。

画外音:这里的讨论,仅限于接收方收到了哪些消息,和发送方的已读回执没有关系。

总结

任何架构方案都不是灵光一现,而是逐步迭代优化产生的:

  • 存多份,只存在线,消息容易丢;
  • 存多份,所有群友都存储,消息冗余多;
  • 存多份,只存ID,未利用偏序;
  • 存一份,只存last_ack_msgid;

架构不只是设计出来的,更是演进出来的。

任何脱离业务的架构设计都是耍流氓。

【本文为51CTO专栏作者“58沈剑”原创稿件,转载请联系原作者】

戳这里,看该作者更多好文

 

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2021-01-08 08:22:17

消息数据结构开发

2021-01-05 09:23:49

网页端消息

2021-02-20 23:19:24

JavaScript开源GitHub

2021-06-24 08:30:08

架构亿级消息中心数据

2015-11-16 17:38:59

2022-06-25 21:52:09

程序员

2020-02-03 11:33:53

开源JavaScriptGithub

2020-02-06 11:23:22

GithubPython开源项目

2021-02-10 07:21:22

Github开源Java

2021-04-03 12:44:16

编程语言数据Python

2019-02-12 09:14:26

GitHubJavaScrip开源

2020-02-13 10:46:54

GithubJavaScript开源项目

2021-02-15 12:14:45

开源PythonGithub

2020-02-10 10:42:55

Java开源项目Github

2021-02-18 10:53:17

GithubJava开源

2012-03-20 10:45:50

Windows 8

2020-02-13 15:11:38

JavaScript开源项目

2019-02-12 08:50:49

GitHub开源项目Python

2019-02-12 08:30:53

GitHub开源项目Java

2015-08-19 10:13:53

DaasVDI
点赞
收藏

51CTO技术栈公众号