打破数据治理与机器学习分治,亚马逊云科技是怎么做到的?

图源:视觉中国

根据福布斯调研报告,企业成为数据驱动型公司后,收入会增加20%,同时成本会减少30%。

2021年是国内企业数智化意识全面升级的一年。根据中国软件网及海比研究院发布的《2022中国企业数智服务市场趋势洞察报告》,国内企业级服务市场正处在高速增长状态,截止2021年底,总体市场规模达到3.6万亿,今年年底预期突破4万亿,且预计2020-2025年期间年均复合增长率将达到20%。

数智化是数字化基础上的更高诉求。企业数字化转型主要是为了提升经营效率,而企业数智化转型则是寻找创新选代的支撑点,帮助自身完成从数据到决策到执行的完整闭环。

现实的生产环境里,数据源并不是单一的。如果说,Spark是目前价值最高的大数据处理框架,Tensorflow、PyTorch是机器学习训练中最好的计算框架,涉及到端到端完成一个智能项目,就需要用到不同类型的大数据与机器学习工具,无法找到一种最佳工具实现。多项调查显示,数据治理和机器学习的割裂其实是影响企业数智化转型的一大隐秘痛点。

亚马逊云科技大中华区产品部总经理陈晓建认为,在企业数智化转型中,大数据和机器学习部门大多分治,由三个原因造成:第一,在很多企业,这两个功能分属完全不同的团队,数据也放在不同的仓库,机器学习团队获取数据需要跨业务部门,还要花很多时间理解背后含义;第二,很多机器学习团队并不具备处理海量数据规模的能力;第三,数据分析人员在算法迭代中参与程度较低。

亚马逊云科技对此提出了一个解决方案:建立一个统一融合的数据底座,为机器学习提供生产级的数据处理能力,将研发和业务统一起来发挥价值。

智能湖仓是这一解法的具像。智能湖仓并非一个产品,而是一套架构,如果同等替换为亚马逊云科技现有产品体系,以中间部分基于Amazon S3构建的数据湖为中心,外围有六大数据服务,包括:关系型数据库Amazon Aurora,非关系型数据库Amazon DynamoDB,机器学习服务Amazon SageMaker,数据仓库Amazon Redshift,日志服务Amazon Opensearch Service,大数据服务Amazon EMR。

在2020年的亚马逊云科技re:Invent大会上,亚马逊云科技正式发布了智能湖仓。在一年之后的2021re:Invent大会上,亚马逊云科技发布了Serverless能力,代表着智能湖仓架构的一次大型技术演进。Serverless给几大数据产品带来了更多灵活的扩展能力,可以实现数据的自由流动与统一治理。

硅谷银行是智能湖仓架构在海外客户的代表,这家银行业务场景聚焦在信用卡欺诈和产品收益领域,为超过三万家初创企业提供种子基金,智能湖仓架构所实现的整个数据平台的互融互通,切中了硅谷银行的痛点。

硅谷银行采用了Amazon SageMaker替代传统的IDC实现机器学习的方式,在背后的数据处理上采用了全套结合了Amazon Lake Formation的治理能力,实现了在数据量并不确定的创新项目上,敏捷地完成业务迭代。与亚马逊云科技合作第一年后,硅谷银行就实现了4300万美元的成本节省。

从现实情况看,智能湖仓所代表的新型开放架构尚处于发展早期,相比于对产品力期待更高的海外客户,国内客户往往对解决方案深入场景的能力更有要求。

以企业数字化营销领域为例,国内企业现在的数字化营销面临流量获取方面的巨大挑战。Convertlab是一家数据分析营销服务商,创始团队来自SAP,主要业务是帮助零售客户提高用户转化率,其联合创始人兼CTO李征发现,在企业运营中,数据处理和分析占据了大量精力,而且数据治理和机器学习的割裂影响着业务闭环的形成。在执行机器学习中,团队65%以上的时间花费在数据本身质量提升和处理上,而不是真正执行机器学习训练、算法选择、参数优化、特征分析。

2021年开始,Convertlab跟亚马逊云科技展开了全面合作,基于亚马逊云科技统一的数据基础底座, Convertlab构建了一体化数据智能湖仓架构和高效机器学习平台,可以快速把异构数据源转化成同一个,进而实施精细化的数据驱动策略。李征发现,这个基础底座使Convertlab的数据流转时效性提升32%,整个电子渠道GMV提升比例上升到6.34%,同时,Convertlab各类场景模型上线效率提升30%,得以为客户的数字化营销做出更充裕准备。

界面新闻了解到,目前,在亚马逊云科技全球几百万客户当中,使用大数据和机器学习的客户在十万数量级,其中包括宝马集团、F1、西门子、Coinbase这样的深度客户。