如何不使用代码就能清理和验证地址数据?

译文
开发 开发工具
无论您想设计客户旅程还是预测业务未来,数据都是有助于取得成功结果的主要工具。这就是为什么企业主致力于开发定制解决方案以保持数据清洁,尤其是客户或联系人数据库。

如今,数据已成为一家组织的最大资产之一。无论您想设计客户旅程还是预测业务未来,数据都是有助于取得成功结果的主要工具。这就是为什么企业主致力于开发定制解决方案以保持数据清洁,尤其是客户或联系人数据库。

但由于公司的多名员工处理、操作和使用联系人数据集,很快会出现诸多不一致和不准确的地方。然后,需要公司的IT人员构建内部解决方案,神奇地消除数据库中存在的所有错误。

从头开始编写每个解决方案

虽然可以编写用于清理和规范数据集的代码,但考虑到实施所需的资源量(时间、人员和资金),这绝对是一种低效的解决方案。算上年度维护和升级成本后,它比采用现有解决方案的成本高出两三倍。

这让我想起了一位程序员朋友最近告诉我的话:在每个开发人员一生中的某个时刻,他们意识到手工编写每个解决方案多么低效。有时,改写市面上现有的解决方案(开源库或商业产品)比从头开始编写解决方案更有效。

我在该博文中解释一些常见的术语和步骤,以清理和验证客户数据库中的地址。这肯定会帮助您了解在选择市面上现有的解决方案时要寻找什么。

涉及的常用术语

在我们详细介绍该过程之前,先了解该领域使用的一些常用术语及其含义。

  • 地址标准化

地址标准化(又叫地址规范)是根据权威标准(比如美国的USPS地址标准)更新地址的格式。

这个过程确保地址以可接受的格式存在——包括正确的拼写、缩写、地理编码以及附以ZIP+4值。

  • 地址验证

地址验证是针对权威数据库(比如美国的USPS)运行标准化地址的过程,并确保这些地址是真实有效的——这意味着它们是国内可邮寄的有效地点。

两者之间的区别

有时这两个术语可以互换使用,但两者之间存在差异。地址应先标准化,以遵循可接受的格式。一旦完成标准化,它们现在可以进行验证,以核查这些地址是否真实有效。

标准化和验证地址的过程

这个过程涉及以下步骤:

1. 分析地址

在针对地址数据库执行任何活动之前,评估当前状态很重要。

这时候地址分析非常有用。它识别含有不完整或缺失地址信息的记录,以及不遵循标准化模式的记录。

地址分析突出显示了数据集可能存在的清理和标准化机会。此外,该配置文件报告通常在流程结束时再次生成,以便比较初始报告和结束报告,以查看数据集是否仍存在错误。

2. 解析地址

USPS地址标准化始于将每个地址解析成子组件。这很重要,因为地址大多作为数据集中的单个字段来予以存储。针对整个字段运行验证检查不如针对子部分运行检查来得准确。因此,通常将单个地址解析成街道号码、街道名称、邮政编码、城市、州和国家。

3. 地理编码

在这个步骤中,为所有地址计算纬度和经度地理编码。除此之外,根据计算出的地理编码,您还可以找出5位数的邮政编码和4位数的送货区域路线。

4. 重构地址

一旦所有这些信息被计算和标准化,现在不是以所需的格式重新格式化和重建地址的时候。这步完成后可以保存在数据库中,或者如果需要,可以随时随地实时计算。

这种格式的一个例子是USPS地址标准,该标准要求送货地址有三行——第一行含有收件人姓名,第二行含有街道地址,第三行含有城市、州和邮政编码。

5. 验证地址

当地址有所有必要组件时,您现在可以对照任何权威数据库验证其有效性,以查明该地址是不是真实的、可邮寄的位置。

除了验证外,这类数据库还可以告诉地址类型——住宅或商业,以及其他一些次要细节。

结论

现在你已有了清理和验证地址数据的5步无代码流程。从头开始实施这样的解决方案可能非常具有挑战性,可能需要数年时间才能提高结果的准确性。

如今业界有许多地址验证工具,包括一些经过CASS认证的工具,这是USPS分配给提供准确地址标准化和验证服务的软件供应商的认证头衔。

这类工具绝对可以提高您团队的运营效率,并使他们能够通过使用正确、准确的位置信息,为客户设计卓越的体验。

原文标题:How to Clean and Verify Address Data 'Without Using Code',作者:Data Ladder

责任编辑:华轩 来源: 51CTO
相关推荐

2011-07-01 14:03:44

数据库缓存

2021-02-05 14:40:56

overflow: h代码前端

2014-12-22 09:48:58

DBCAOracle 11

2022-08-18 23:20:03

数据泄露IP 地址隐私

2016-12-08 17:14:03

数据库性能

2015-10-09 11:33:38

创业创业想法

2021-08-14 06:46:45

Windows 11操作系统微软

2023-09-21 23:35:19

C++变量

2011-01-20 17:44:25

2021-12-02 07:50:31

混合云专线机房

2020-10-10 10:20:11

云计算云安全技术

2023-05-09 12:34:45

Prophecy可视化工具

2019-11-22 10:20:07

DebianLinuxapt-get

2021-03-11 10:48:33

机器学习数据清理

2020-02-20 12:50:47

后端代码应用程序

2020-10-16 18:16:21

远程服务器终端开发人员

2023-08-03 08:00:00

数据湖模式验证

2017-09-18 09:03:36

线程安全单例

2021-04-08 10:55:53

MySQL数据库代码

2021-06-07 16:01:15

代码开发工具
点赞
收藏

51CTO技术栈公众号