C++11 中的双重检查锁定模式

开发 后端 前端
在过去。java现在可以为修订内存模型,为thevolatileeyword注入新的语义,使得它尽可然安全实现DCLP.同样地,c+11有一个全 新的内存模型和原子库使得各种各样的便捷式DCLP得以实现。c+11反过来启发Mintomic,一个小型图书馆,我今年早些时候发布的,这使得它尽可 能的实现一些较旧的c/c++编译器以及DCLP.

双重检查锁定模式(DCLP)在无锁编程方面是有点儿臭名昭著案例学术研究的味道。直到2004年,使用java开发并没有安全的方式来实现它。在 c++11之前,使用便捷式c+开发并没有安全的方式来实现它。由于引起人们关注的缺点模式暴露在这些语言之中,人们开始写它。一组高调的java聚集在 一起开发人员并签署了一项声明,题为:“双重检查锁定坏了”。在2004年斯科特 、梅尔斯和安德烈、亚历山发表了一篇文章,题为:“c+与双重检查锁定 的危险”对于DCLP是什么?这两篇文章都是伟大的引物,为什么呢?在当时看来,这些语言都不足以实现它。

在过去。java现在可以为修订内存模型,为thevolatileeyword注入新的语义,使得它尽可然安全实现DCLP.同样地,c+11有一个全 新的内存模型和原子库使得各种各样的便捷式DCLP得以实现。c+11反过来启发Mintomic,一个小型图书馆,我今年早些时候发布的,这使得它尽可 能的实现一些较旧的c/c++编译器以及DCLP.

在这篇文章中,我将重点关注c++实现的DCLP.

什么是双重检查锁定?

假设你有一个类,它实现了著名的Singleton 模式,现在你想让它变得线程安全。显然的一个方法就是通过增加一个锁来保证互斥共享。这样的话,如果有两个线程同时调用了Singleton::getInstance,将只有其中之一会创建这个单例。

  1. Singleton* Singleton::getInstance() { Lock lock; // scope-based lock, released automatically when the function returns if (m_instance == NULL) { 
  2.         m_instance = new Singleton; 
  3.     } return m_instance; 

这是完全合法的方法,但是一旦单例被创建,实际上就不再需要锁了。锁不一定慢,但是在高并发的条件下,不具有很好的伸缩性。

双重检查锁定模式避免了在单例已经存在时候的锁定。不过如Meyers-Alexandrescu的论文所显示的,它并不简单。在那篇论文中,作者描述了几个有缺陷的用C++实现DCLP的尝试,并剖析了每种情况为什么是不安全的。最后,在第12页,他们给出了一个安全的实现,但是它依赖于非指定的,特定平台的内存屏障(memory barriers)。

(译注:内存屏障就是一种干预手段. 他们能保证处于内存屏障两边的内存操作满足部分有序)

  1. Singleton* Singleton::getInstance() {  
  2.     Singleton* tmp = m_instance; ... // insert memory barrier if (tmp == NULL) {  
  3.         Lock lock;  
  4.         tmp = m_instance; if (tmp == NULL) {  
  5.             tmp = new Singleton; ... // insert memory barrier m_instance = tmp;  
  6.         }  
  7.     } return tmp;  
  8. }  

这里,我们可以发现双重检查锁定模式是由此得名的:在单例指针m_instance为NULL的时候,我们仅仅使用了一个锁,这个锁使偶然访问到该单例的第一组线程继续下去。而在锁的内部,m_instance被再次检查,这样就只有第一个线程可以创建这个单例了。

这与可运行的实现非常相近。只是在突出显示的几行漏掉了某种内存屏障。在作者写这篇论文的时候,还没有填补此项空白的轻便的C/C++函数。现在,C++11已经有了。

用 C++11 获得与释放屏障

你可以用获得与释放屏障 安全的完成上述实现,在我以前的文章中我已经详细的解释过这个主题。不过,为了让代码真正的具有可移植性,你还必须要将m_instance包装成原子类型,并且用放松的原子操作(译注:即非原子操作)来操作它。这里给出的是结果代码,获取与释放屏障部分高亮了。

  1. std::atomic<Singleton*> Singleton::m_instance; 
  2. std::mutex Singleton::m_mutex; 
  3.  
  4. Singleton* Singleton::getInstance() { 
  5.     Singleton* tmp = m_instance.load(std::memory_order_relaxed); std::atomic_thread_fence(std::memory_order_acquire); if (tmp == nullptr) { 
  6.         std::lock_guard<std::mutex> lock(m_mutex); 
  7.         tmp = m_instance.load(std::memory_order_relaxed); if (tmp == nullptr) { 
  8.             tmp = new Singleton; std::atomic_thread_fence(std::memory_order_release); m_instance.store(tmp, std::memory_order_relaxed); 
  9.         } 
  10.     } return tmp; 

即使是在多核系统上,它也可以令人信赖的工作,因为内存屏障在创建单例的线程与其后任何跳过这个锁的线程之间,创建了一种同步的关系。Singleton::m_instance充当警卫变量,而单例本身的内容充当有效载荷

所有那些有缺陷的DCLP实现都忽视了这一点:如果没有同步的关系,将无法保证第一个线程的所有写操作——特别是,那些在单例构造器中执行的写操作——可以对第二个线程可见,虽然m_instance指针本身是可见的!第一个线程具有的锁也对此无能为力,因为第二个线程不必获得任何锁,因此它能并发的运行。

如果你想更深入的理解这些屏障为什么以及如何使得DCLP具有可信赖性,在我以前的文章中有一些背景信息,就像这个博客早前的文章一样。

使用 Mintomic 屏障

Mintomic 是一个小型的C语言的库,它提供了C++11原子库的一个功能子集,其中包含有获取与释放屏障,而且它是运行于更老的编译器之上的。Mintomic依赖于这样的假设 ,即C++11的内存模型——特殊的是,其中包括无中生有的存储 ——因为它不被更老的编译器支持,不过这已经是我们不通过C++11能做到的最佳程度了。记住这些东西可是若干年来我们在写多线程C++代码时的环境。无 中生有的存储(Out-of-thin-air stores)已被时间证明是不流行的,而且好的编译器也基本上不会这么做。

这里有一个DCLP的实现,就是用Mintomic来获取与释放屏障的。和前面使用C++11获取和释放屏障的例子比起来,它基本上是等效的。

  1. mint_atomicPtr_t Singleton::m_instance = { 0 }; 
  2. mint_mutex_t Singleton::m_mutex; 
  3.  
  4. Singleton* Singleton::getInstance() { 
  5.     Singleton* tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance); mint_thread_fence_acquire(); if (tmp == NULL) { 
  6.         mint_mutex_lock(&m_mutex); 
  7.         tmp = (Singleton*) mint_load_ptr_relaxed(&m_instance); if (tmp == NULL) { 
  8.             tmp = new Singleton; mint_thread_fence_release(); mint_store_ptr_relaxed(&m_instance, tmp); 
  9.         } 
  10.         mint_mutex_unlock(&m_mutex); 
  11.     } return tmp; 

#p#

使用c++ 11低级排序约束

C++11的获取与释放屏障可以正确的实现DCLP,而且应该能够针对当今大多数的多核设备,生成优化的机器代码(就像Mintomic做的那样),但是它们似乎不是非常时髦。在C++11中获得同等效果的首选方法,应该是使用基于低级排序约束的原子操作。正如我先前所说,一条写释放(write-release)可以同步于一条读获取(read-acquire)。

  1. std::atomic<Singleton*> Singleton::m_instance; 
  2. std::mutex Singleton::m_mutex; 
  3.  
  4. Singleton* Singleton::getInstance() { Singleton* tmp = m_instance.load(std::memory_order_acquire); if (tmp == nullptr) { 
  5.         std::lock_guard<std::mutex> lock(m_mutex); 
  6.         tmp = m_instance.load(std::memory_order_relaxed); if (tmp == nullptr) { 
  7.             tmp = new Singleton; m_instance.store(tmp, std::memory_order_release); } 
  8.     } return tmp; 

从技术上说,这种无锁的同步形式,比使用独立屏障的形式,要不那么严格;上面的操作只是意味着阻止它们自己周围的内存重新排序,这与独立的屏障不同,后者意味着阻止所有相邻的操作的特定类型的内存重排序。尽管如此,在x86/64, ARMv6/v7,以及 PowerPC架构上,对于这两种形式,可能的最好代码都是相同的。例如,在一篇早前文章中,我演示了在ARMv7编译器上,C++11低级排序约束是如何发送dmb指令的,而这也正是你在使用独立屏障时所期待的同样事情。

这两种形式有可能会生成不同机器代码的一个平台是Itanium。Itanium可以使用一条单独的CPU指令,ld.acq来实现C++11的 load(memory_order_acquire),并可以使用st.rel来实现store(tmp, memory_order_release)。我很想研究一下这些指令与独立屏障之间的性能差异,可是我找不到可用的Itanium机器。

另一个这样的平台是最近出现的ARMv8架构。ARMv8提供了ldar和stlr指令,除了它们也增强了stlr指令以及任何后续的ldar指令之间的存储加载排序以外,其它的都与Itanium的ld.acq和st.rel指令很相似。事实上,ARMv8的这些新指令意在实现C++11的SC原子操作,这在后面会讲到。

使用 C++11的顺序一致原子

C++11提供了一种完全不同的方法来写无锁代码。(我们可以认为在某些特定的代码路径上DCLP是“无锁”的,因为并不是所有的线程都具有锁。)如果在 所有原子库函数上,你忽略了可选的std::memory_order参数,那么默认值std::memory_order_seq_cst就会将所有的 原子变量转变为顺序一致的(sequentially consistent) (SC)原子。通过SC原子,只要不存在数据竞争,整个算法就可以保证是顺序一致的。SC原子Java 5+中的volatile变量非常相似。

这里是使用SC原子的一个DCLP实现。如之前所有例子一样,一旦单例被创建,第二行高亮将与第一行同步

  1. std::atomic<Singleton*> Singleton::m_instance; 
  2. std::mutex Singleton::m_mutex; 
  3.  
  4. Singleton* Singleton::getInstance() { Singleton* tmp = m_instance.load(); if (tmp == nullptr) { 
  5.         std::lock_guard<std::mutex> lock(m_mutex); 
  6.         tmp = m_instance.load(); if (tmp == nullptr) { 
  7.             tmp = new Singleton; m_instance.store(tmp); } 
  8.     } return tmp; 

SC原子被认为可以使程序员更容易思考。其代价是生成的机器代码似乎比之前的例子效率要低。例如,这里有有一些关于上面代码清单的x64机器代码,由Clang 3.3在启用代码优化的条件下生成:

由于我们使用了SC原子,保存到m_instance是由xchg指令实现的,在x64上它具有内存屏障作用。这比x64中DCLP实际需要的指令更强。 只需一条简单的mov指令就可以做这项工作。不过这并不十分要紧,因为在单例首次创建的代码路径上,xchg指令只下发一次。

另一方面,如果你给PowerPC 或 ARMv6/v7编译SC原子指令,你十有八九会得到糟糕的机器代码。其中的细节,请看Herb Sutter的atomic<> 武器说话,第 2部分的00:44:25 - 00:49:16段落。

使用 C++11 的数据相关性排序

在上面所有我给出的例子中,在创建单例的那个线程,与其后任何越过锁的线程之间,有一种同步的关系。警卫变量就是单例指针,有效载荷是单例自身的内容。在本例中,有效载荷被认为是警卫指针的一个相关性数据

人们后来发现,当存在数据相关性时,上面所有例子中都用到的读获取(read-acquire)操作,将极富杀伤力!我们用消费操作(consume operation)来替代它要好一点。消费操作很酷,因为它们消除了PowerPC中的一条lwsync指令,以及ARMv7中的一条dmb指令。在将来的一篇文章中,我将更多的谈论到有关数据相关性和消费操作的内容。

使用C++11中的静态初始化器

有些读者已经知道这篇文章的妙语:如果你想得到一个线程安全的实例,C++11不允许你跳过以上的所有步骤。你可以简单使用一个静态初始化器。

  1. Singleton& Singleton::getInstance() {  
  2.     static Singleton instance; return instance; 

让我们回到6.7.6节查看C++11的标准:

  如果控制进入申明同时变量将被初始化的时候,那么并发执行将会等到初始化的完成。

由编译器来临时代替实现的细节,DCLP明显是一个不错的选择。不能保证编译器将会使用DCLP,但一些(也许更多)却碰巧发生了。使用the-std=c++0x选项对ARM进行编译,生成了下面的一些机器码,这些机器码是由GCC 4.6生成的。

由于单例创建于固定地址,为了同步的目的,编译器引进了一个独立的警卫变量。特别需要注意的 是,在最初读到这个警卫变量之后,并没有现成的dmb指令可以用来获取内存屏障。警卫变量是指向单例的指针,因此编译器可以利用数据相关性,省略掉这种 dmb指令。__cxa_guard_release对警卫变量执行了一个写释放(write-release)操作,这样只要警卫变量已设置,在读消费 (read-consume)之前就建立了依赖顺序,就像前面所有例子里那样,基于对内存的重新排序,整个事情开始变得有弹性。

如你所见,我们已伴随C++11走过了一段漫长的道路。双重检查锁定是一种稳定的模式,而且还远不止此!

就个人而言,我常常想,如果是需要初始化一个单例,最好是在程序启动的时候做这个事情。但是显然DCLP可以拯救你于泥潭。而且在实际的使用中,你还可以用DCLP来将任意数值类型存储到一个无锁的哈希表。在以后的文章中会有更多关于它的论述。

原文链接:http://preshing.com/20130930/double-checked-locking-is-fixed-in-cpp11/

译文链接:http://www.oschina.net/translate/double-checked-locking-is-fixed-in-cpp11

责任编辑:陈四芳 来源: 开源中国编译
相关推荐

2013-11-29 09:51:26

C++双重检查锁定

2011-04-20 10:07:15

2016-11-11 00:33:25

双重检查锁定延迟初始化线程

2024-02-21 23:43:11

C++11C++开发

2013-07-31 11:09:05

C++11

2023-09-22 22:27:54

autoC++11

2011-08-19 09:41:56

C++

2020-06-01 21:07:33

C11C++11内存

2013-09-25 14:20:46

2020-12-09 10:55:25

ArrayvectorLinux

2013-05-30 00:49:36

C++11C++条件变量

2023-09-24 13:58:20

C++1auto

2021-06-11 10:53:40

Folly组件开发

2011-10-13 10:21:01

C++

2020-09-23 16:31:38

C++C++11启动线程

2012-12-25 10:52:23

IBMdW

2013-12-11 10:00:14

C++新特性C

2018-07-08 06:54:15

Java双重分发Visitor

2013-10-15 09:48:03

C++Lambda函数式编程

2013-07-29 11:11:33

C++C++11
点赞
收藏

51CTO技术栈公众号