一日一技:等待多个线程同时结束的两种方法

开发 前端
我们在写多线程代码的时候,可能会需要等待多个线程同时结束,然后再进行后续的流程。例如,我做了一个聚合搜索引擎,用户输入一个关键词,我需要同时在很多个搜索引擎上搜索,然后把搜索结果汇总以后返回给用户。

[[403063]]

我们在写多线程代码的时候,可能会需要等待多个线程同时结束,然后再进行后续的流程。例如,我做了一个聚合搜索引擎,用户输入一个关键词,我需要同时在很多个搜索引擎上搜索,然后把搜索结果汇总以后返回给用户。

示例代码如下:

  1. @app.get('/api/search'
  2. def search(keyword: str): 
  3.     google_result = requests.get('Google 搜索地址').text 
  4.     baidu_result = requests.get('百度搜索地址').text 
  5.     bing_result = requests.get('Bing搜索地址').text 
  6.     result = combine(google_result, baidu_result, bing_result) 
  7.     return {'success'True'result': result} 

从上面这段代码,大家可能会发现一个问题,就是在请求多个搜索引擎的时候是串行的,先访问 Google,访问完成再访问百度,访问完成最后访问 Bing。这样显然会浪费大量的时间。

如果你不会async/await,那么为了解决这个问题,你能想到的显然就是使用多线程。使用3个线程同时访问 Google、百度和 Bing,然后把结果汇总传入combine函数,不就解决问题了吗?

如果仅仅是启动多个线程,那么做法很简单:

  1. import threading 
  2.  
  3. def get_url(url): 
  4.     result = requests.get(url, headers=HEADERS).text 
  5.     return result 
  6.  
  7. @app.get('/api/search'
  8. def search(keyword: str): 
  9.     google_thead = threading.Thread(target=get_url, 'Google 搜索地址'
  10.     baidu_thread = threading.Thread(target=get_url, '百度搜索地址'
  11.     bing_thread = threading.Thread(target=get_url, 'Bing搜索地址'
  12.     google_thread.start() 
  13.     baidu_thread.start() 
  14.     bing_thread.start() 
  15.     ... 

现在问题来了,三个线程确实已经启动了,但你怎么知道到什么时候为止,所有线程都运行完毕?

这里我们给出几个方法。

使用 join

调用线程的.join()方法,就可以卡住主线程,直到这个子线程运行完毕才能让主线程继续运行后面的代码。所以我们可以修改代码为:

  1. import threading 
  2.  
  3. def get_url(url): 
  4.     result = requests.get(url, headers=HEADERS).text 
  5.     return result 
  6.  
  7. @app.get('/api/search'
  8. def search(keyword: str): 
  9.     google_thead = threading.Thread(target=get_url, 'Google 搜索地址'
  10.     baidu_thread = threading.Thread(target=get_url, '百度搜索地址'
  11.     bing_thread = threading.Thread(target=get_url, 'Bing搜索地址'
  12.     google_thread.start() 
  13.     baidu_thread.start() 
  14.     bing_thread.start() 
  15.      
  16.     google_thread.join() 
  17.     baidu_thread.join() 
  18.     bing_thread.join() 

但等一等,我怎么拿到子线程的返回呢?在默认情况下,你确实拿不到返回的数据。所以你需要传入一个东西去子线程接收结果。所以代码可以改为:

  1. import threading 
  2.  
  3. def get_url(url, output): 
  4.     result = requests.get(url, headers=HEADERS).text 
  5.     output.append(result) 
  6.  
  7. @app.get('/api/search'
  8. def search(keyword: str): 
  9.     result = [] 
  10.     google_thead = threading.Thread(target=get_url, args=['Google 搜索地址', result]) 
  11.     baidu_thread = threading.Thread(target=get_url, args=['百度搜索地址', result]) 
  12.     bing_thread = threading.Thread(target=get_url, args=['Bing搜索地址', result]) 
  13.     google_thread.start() 
  14.     baidu_thread.start() 
  15.     bing_thread.start() 
  16.      
  17.     google_thread.join() 
  18.     baidu_thread.join() 
  19.     bing_thread.join() 
  20.     combine(*result) 

因为线程是共享内存的,所以他们可以直接修改主线程传入的列表。

在使用.join()的时候,需要小心不要把.join()放错了地方,否则你的多线程就会变成单线程。详情可以看我的这篇文章: 等一等,你的多线程可别再乱 join 了。

ThreadPoolExecutor

Python 自带了一个concurrent模块,它就是专门用来处理并发问题的。我们也可以使用这个模块中的ThreadPoolExecutor来解决问题:

  1. from concurrent.futures import ThreadPoolExecutor, as_completed 
  2.  
  3. def get_url(url): 
  4.     result = requests.get(url, headers=HEADERS).text 
  5.     return result 
  6.  
  7. @app.get('/api/search'
  8. def search(keyword: str): 
  9.     tasks = [] 
  10.     with ThreadPoolExecutor() as executor: 
  11.         for url in ['Google 搜索地址''百度搜索地址''Bing搜索地址'
  12.             task = executor.submit(get_url, url) 
  13.             tasks.append(task) 
  14.         result = [x.result() for x in as_completed(tasks)] 
  15.   
  16.     combine(*result) 
  17.     ... 

concurrent.futures里面的as_completed函数接收一个列表,列表里面是多个并发任务。当所有并发任务都运行结束时,它才会返回一个可迭代对象。对它进行迭代以后,每个元素的.result()就是每个子线程运行的返回结果。

其他方法

除了上面两个方法外,还可以使用multiprocessing.dummy里面的Pool来实现更简单的多线程。

本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。

 

责任编辑:武晓燕 来源: 未闻Code
相关推荐

2021-04-05 14:47:55

Python多线程事件监控

2021-04-27 22:15:02

Selenium浏览器爬虫

2021-10-15 21:08:31

PandasExcel对象

2022-03-12 20:38:14

网页Python测试

2022-06-28 09:31:44

LinuxmacOS系统

2021-10-08 20:11:40

类方法静态

2021-04-12 21:19:01

PythonMakefile项目

2021-03-12 21:19:15

Python链式调用

2021-09-13 20:38:47

Python链式调用

2023-10-28 12:14:35

爬虫JavaScriptObject

2021-04-19 23:29:44

MakefilemacOSLinux

2023-09-06 00:15:04

Pandas技巧格式

2022-03-07 09:14:04

Selenium鼠标元素

2021-10-03 20:08:29

HTTP2Scrapy

2021-05-08 19:33:51

移除字符零宽

2021-07-27 21:32:57

Python 延迟调用

2021-02-14 22:22:18

格式图片 HTTP

2021-07-26 21:15:10

LRU缓存MongoDB

2023-10-29 09:16:49

代码安全命令

2021-05-13 09:01:51

Cloud Flare浏览器网站
点赞
收藏

51CTO技术栈公众号