Python 列表去重的4种方式及性能对比

开发 后端
列表去重是Python中一种常见的处理方式,任何编程场景都可能会遇到需要列表去重的情况。列表去重的方式有很多,本文将一一讲解他们,并进行性能的对比。

列表去重是Python中一种常见的处理方式,任何编程场景都可能会遇到需要列表去重的情况。

列表去重的方式有很多,本文将一一讲解他们,并进行性能的对比。

[[350938]]

让我们先制造一些简单的数据,生成0到99的100万个随机数:

  1. from random import randrange 
  2. DUPLICATES = [randrange(100) for _ in range(1000000)] 

接下来尝试这4种去重方式中最简单直观的方法:

1. 新建一个数组,遍历原数组,如果值不在新数组里便加入到新数组中。

  1. # 第一种方式 
  2. def easy_way(): 
  3.     unique = [] 
  4.     for element in DUPLICATES: 
  5.         if element not in unique: 
  6.             unique.append(element) 
  7.     return unique 

进入ipython使用timeit计算其去重耗时:

  1. %timeit easy_way() 
  2. # 1.16 s ± 137 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) 

平均耗时在1.16秒左右,但是在这个例子中我们使用了数组作为存储对象,实际上如果我们改成集合存储去重后的结果,性能会快不少:

  1. def easy_way(): 
  2.     unique = set() 
  3.     for element in DUPLICATES: 
  4.         if element not in unique: 
  5.             unique.add(element) 
  6.     return unique 
  1. %timeit easy_way() 
  2. # 48.4 ms ± 11.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗时在48毫秒左右,改善明显,这是因为集合和数组的内在数据结构完全不同,集合使用了哈希表,因此速度会比列表快许多,但缺点在于无序。

接下来看看第2种方式:

2. 直接对数组进行集合转化,然后再转回数组:

  1. # 第二种去重方式 
  2. def fast_way() 
  3.     return list(set(DUPLICATES)) 

耗时:

  1. %timeit fast_way() 
  2. # 14.2 ms ± 1.73 ms per loop (mean ± std. dev. of 7 runs, 100 loops each) 

平均耗时14毫秒,这种去重方式是最快的,但正如前面所说,集合是无序的,将数组转为集合后再转为列表,就失去了原有列表的顺序。

如果现在有保留原数组顺序的需要,那么这个方式是不可取的,怎么办呢?

3. 保留原有数组顺序的去重

使用dict.fromkeys()函数,可以保留原有数组的顺序并去重:

  1. def save_order(): 
  2.     return list(dict.fromkeys(DUPLICATES)) 

当然,它会比单纯用集合进行去重的方式耗时稍微久一点:

  1. %timeit save_order() 
  2. # 39.5 ms ± 8.66 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗时在39.5毫秒,我认为这是可以接受的耗时,毕竟保留了原数组的顺序。

但是,dict.fromkeys()仅在Python3.6及以上才支持。

如果你是Python3.6以下的版本,那么可能要考虑第四种方式了。

4. Python3.6以下的列表保留顺序去重

在Python3.6以下,其实也存在fromkeys函数,只不过它由collections提供:

  1. from collections import OrderedDict 
  2. def save_order_below_py36(): 
  3.     return list(OrderedDict.fromkeys(DUPLICATES)) 

耗时:

  1. %timeit save_order_below_py36() 
  2. # 71.8 ms ± 16.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗时在72毫秒左右,比 Python3.6 的内置dict.fromkeys()慢一些,因为OrderedDict是用纯Python实现的。

【责任编辑:赵宁宁 TEL:(010)68476606】

 

责任编辑:赵宁宁 来源: Python实用宝典
相关推荐

2017-02-08 12:00:45

PHP性能对比

2015-05-04 14:50:48

PHPPHP生成随机密码

2019-12-25 09:53:01

虚拟机技术固态硬盘

2014-06-05 10:22:06

Tomcat 7

2018-03-01 15:20:59

iOS开发多线程

2010-03-15 14:01:26

JavaScript

2017-04-13 15:15:17

Netflix ZuuNginx性能

2022-12-05 17:01:20

MySQL数据库Oracle

2011-08-05 13:41:46

Go

2024-04-24 11:24:43

C#数据去重

2012-08-06 13:37:35

浏览器WindowsUbuntu

2009-07-24 13:17:43

世纪互联至强CloudEx

2010-01-16 11:02:12

Ubuntu性能测试

2010-06-28 13:11:05

2010-01-22 11:06:03

GNUkFreeBSDLinux

2012-07-13 10:57:46

Nginxlua

2020-11-03 19:52:54

Java数组编程语言

2009-11-06 17:10:34

ChromeFirefox功能对比

2013-12-23 09:37:16

Fedora开源Fedora 19

2017-11-21 15:50:09

FlinkStorm性能
点赞
收藏

51CTO技术栈公众号