云端构建机器学习平台的几个优秀实践

译文
人工智能 机器学习
为了跟上大数据、人工智能和机器学习带来的技术能力具有的规模和复杂性,许多公司在自行开发复杂的内部平台。事实上Gartner预测,到2025年,云原生平台将成为超过95%的新数字化计划的基础,高于2021年的不到40%。

​译者 | 布加迪

审校 | 孙淑娟

大多数人都熟悉iOS、Windows和AWS等主要的技术平台。平台本质上是一组技术,以充当构建、贡献、试验和扩展其他应用程序的基础。它们带来了当今许多先进的技术能力和尖端的客户体验。

为了跟上大数据、人工智能和机器学习带来的技术能力具有的规模和复杂性,许多公司在自行开发复杂的内部平台。事实上Gartner预测,到2025年,云原生平台将成为超过95%的新数字化计划的基础,高于2021年的不到40%。

根据我的经验,企业技术平台具有变革性:它们使跨职能部门的团队能够快速测试、启动和学习,减少重复、规范能力,并提供一致集成的体验。简而言之,它们有助于将技术转化为竞争优势。

1.企业平台的演进

许多组织利用Kubernetes等可以运行人工智能和机器学习繁重任务的云原生平台,越来越善于提供一流的客户体验。第一资本(Capital One)成为美国第一家全力投入到云的金融机构,能够重新设计数据环境的架构,对于夯实其基于云的平台能力不可或缺。有了这个坚实的基础,第一资本更能够利用大数据在其企业平台上打造新的机器学习能力,以加速、增强和提供新的、更有意义的客户体验。

第一资本在这方面的大部分工作已经为公司和客户带来了显著成效。比如说,其欺诈决策平台是从头开始构建的,以便做出复杂的实时决策。通过利用大量数据,并实现在几天(而不是几个月)内更新模型,该平台有助于保护数百万客户免受信用卡欺诈,并可供该公司的各个利益相关者使用。

根据我在领导团队交付企业技术平台方面的经验,一路上汲取的重要的经验教训和优秀实践如下:

  • 一切都从团队开始:建立由最优秀的人组成的跨部门团队,即使一开始这会减慢你的工作。更大的团队并不总是更好!团队起码要有产品经理、工程师和设计师。为这些职能部门配备真正了解平台用户的人。比如说,如果您正构建一个主要由数据科学家使用的平台,应聘请曾经是数据科学家的产品经理,或者为领导团队添加数据科学家。如果团队由来自多个部门的人员组成,应确保你们有共同的目标。
  • 先明确定义最终状态:在开始构建之前,花时间明确最终状态的架构和计划,以迭代方式实现目标。确保架构一开始就是为自助服务和贡献设计的。更好的是,设计平台时假设您将把平台扩展到本组织或业务部门之外的用户。还要假设一段时间后,随着技术的变化,您希望可以更换组件。
  • 估计认为需要多长时间,然后加倍:重要的是花时间集思广益,想好一开始就需要打造的所有能力,然后为每部分投入相应的精力。一旦技术团队将此与速度相结合,估计构建每个功能需要多长时间,就增加50%的缓冲量。根据我的经验,这个估计最终非常准确。
  • 关注业务成果:构建出色的平台可能需要很长时间。确定工作的次序很重要,这样才能不断实现业务价值。这可以激励团队,树立信誉,并形成良性循环。
  • 力求透明,加强沟通:与利益相关者自由地交流决策、进展和路线图。除了阐明手头的工作外,还要阐明目前没有优先考虑的事情。编写好文档,以便鼓励他人贡献、轻松加入平台。
  • 从小处着手:就连最好的测试和质量保证(QA)环境也可能遗漏一些部署到生产环境后才显露的问题。对于对客户会有明显影响的重大变化而言,总是从一个小群体入手,看到小规模生产环境中切实有效后,再扩大应用范围。
  • 彻底透明并过度沟通:与利益相关者自由分享决策、进展和路线图。除了阐明您正在做的事情之外,还要阐明您目前没有优先考虑的事情。投资于有助于贡献和轻松加入平台的文档。
  • 从小处着手:即使是最好的测试和QA 环境也可能会遗漏一些直到投入生产时才发现的问题。对于将产生有意义的客户影响的重大变化,总是从一小部分人开始,然后在你看到小规模生产中的事情发生后逐渐增加。如果可能,当变更影响外部客户时,仅将员工用于初始人群。
  • 重视妥善管理:平台所有者应关注平台性能。所有问题都应通过控制机制和自动警报显露出来。应迅速处理异常情况。应优先考虑问题的根本原因分析和变化,防止问题一再发生。如果没有问题,应适当地庆祝,好让团队知道它受到赞赏。
  • 如果看起来好得难以置信……异常监控是确保执行符合意图的好方法。目标常常是零异常。比如说,延迟不应超过200毫秒。如果异常报告从不显示任何异常,监控很可能有问题。始终强制执行异常,以确保它正确触发。这一点我可是深有体会。
  • 开心的团队是富有成效的团队。庆贺取得的成绩,在团队成员表现出色时给予表扬,并创造内心充盈的环境。定期衡量团队的幸福感,让团队有机会来讨论什么会让他们更快乐,并自行尝试,以解决不满意的地方。

当一个团队拥有合适平台技术大力支持的强大文化时,机会无限。通过将云原生平台与大规模数据相结合,公司可以更好地推进,并尝试更新颖、更具创新的产品和体验。当这些体验使最终用户和客户能够在需要时获得所需的产品或服务,这无疑具有重大意义。

原文链接:https://venturebeat.com/ai/best-practices-for-building-machine-learning-platforms-on-the-cloud/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2020-02-19 10:39:44

机器学习云计算数据

2019-10-10 09:00:30

云端云迁移云计算

2020-11-26 18:30:33

机器学习Kubernetes开发

2019-12-16 12:11:53

Docker容器Kubernetes

2021-01-08 13:42:28

爱奇艺机器学习深度学习

2021-05-10 16:41:19

机器学习人工智能IT

2021-05-08 16:11:08

Java开发代码

2021-11-26 08:00:00

机器学习数据库AWS

2023-02-20 07:46:45

机器学习AI 技术

2023-10-23 07:13:04

2018-07-19 10:35:12

机器学习数据平台

2021-02-25 09:00:00

架构开发运维

2022-05-13 14:28:03

云原生权限云原生

2020-11-23 18:39:54

容器Kubernetes架构

2021-12-28 14:28:01

人工智能AI机器人

2020-07-24 10:36:17

云计算云平台数据

2017-11-16 09:58:43

机器学习大数据技术算法

2023-11-22 08:00:00

人工智能云计算

2020-09-27 17:17:26

机器学习技术人工智能

2020-09-27 18:29:03

代码机器学习数据科学
点赞
收藏

51CTO技术栈公众号