使用Dask在Python中进行并行计算

开发 后端
关于 Python 性能的一个常见抱怨是全局解释器锁(GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。

[[262844]]

 Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。

关于 Python 性能的一个常见抱怨是全局解释器锁(GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。

但当你需要并行化到多核时,你不需要放弃使用 Python:Dask 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展规模的限制,但一般达不到。

虽然 Dask 有许多内置的数组操作,但举一个非内置的例子,我们可以计算偏度

  1. import numpy
  2. import dask
  3. from dask import array as darray
  4.  
  5. arr = dask.from_array(numpy.array(my_data), chunks=(1000,))
  6. mean = darray.mean()
  7. stddev = darray.std(arr)
  8. unnormalized_moment = darry.mean(arr * arr * arr)
  9. ## See formula in wikipedia:
  10. skewness = ((unnormalized_moment - (3 * mean * stddev ** 2) - mean ** 3) /
  11. stddev ** 3)

请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。

当然,并不是我们所有的操作都可由这个库并行化,有时我们需要自己实现并行性。

为此,Dask 有一个“延迟”功能:

  1. import dask
  2.  
  3. def is_palindrome(s):
  4. return s == s[::-1]
  5.  
  6. palindromes = [dask.delayed(is_palindrome)(s) for s in string_list]
  7. total = dask.delayed(sum)(palindromes)
  8. result = total.compute()

这将计算字符串是否是回文并返回文的数量。

虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。

 

责任编辑:庞桂玉 来源: Linux中国
相关推荐

2023-07-10 13:51:45

测试并行计算框架

2011-04-20 17:15:21

并行计算

2011-04-21 09:13:14

并行计算

2021-08-27 14:36:01

主题建模BerTopic

2012-08-17 09:32:52

Python

2018-03-13 12:51:12

Python数据函数

2018-06-07 15:58:52

Python函数数据

2010-03-22 14:45:40

云计算

2020-03-07 18:00:17

logzeroPython日志记录

2021-06-01 05:51:37

云计算并行计算分布式计算

2023-10-18 18:31:04

SQL查询数据

2023-08-02 08:02:30

Redis数据原生方法

2009-12-18 09:38:27

.NET 4.0并行计

2014-04-24 10:25:15

2010-03-19 17:23:45

云计算

2020-06-30 08:23:00

JavaScript开发技术

2014-01-21 11:16:59

MPI并行计算

2009-06-22 10:29:11

集成测试Spring

2022-07-08 10:59:32

深度学习计算

2010-03-11 15:23:44

Visual Stud
点赞
收藏

51CTO技术栈公众号