目录

亚马逊云:构建云原生数据战略,释放数据能量

在每年的re:Invent全球大会上,亚马逊云科技都会发布许多重磅的新服务、功能和应用,来支持遍及全球各地、来自千行百业的客户进行不断的创新和重塑。面临全球经济的不确定性,各种规模的客户都希望能进一步消减成本、增强业务的灵活性并加速创新。亚马逊云科技大中华区产品部总经理陈晓建表示,亚马逊云科技希望能通过技术的不断创新,让全球包括中国的客户能凌云驭势、重塑未来。 

亚马逊云科技大中华区产品部总经理陈晓建

数据爆炸不是未来,而是现实,比如Expedia集团每年处理超过6000亿个AI预测,三星的11亿用户每秒发进80,000个请求,Pinterest在Amazon S3上存储了1个EB的数据等等。分析人士预测,未来五年产生的数据量将会是数字时代开始以来的两倍多,如何管理海量数据,挖掘数据价值,对每个组织来说都是巨大的挑战。

数据是企业业务决策流程的中心,是构建数字化转型的基石,但处理数据非常棘手,这也是亚马逊云科技一直致力于建设一个云原生端到端数据战略的原因。“我们希望提供的所有工具,能够帮助客户在整个数据全生命周期从存储到最后的AI人工智能,在每个环节都能帮助用户把数据利益最大化,通过提供完整全面的数据解决方案,可以帮助客户更安全、更高效的去挖掘数据价值。”陈晓建指出,构建端到端数据战略应该包括以下三个核心:建立面向未来的云原生数据基础设施实现高效、跨组织的数据一体化融合借助教育和工具,使数据普惠化

如果继续细化,那么一个面向未来的云原生数据基础设施还应该具备四个核心要素:

1) 面对不同类型的工作负载,提供合适的工具;

2) 在大规模运行的情况下仍然保持高性能;

3) 通过智能化手段和工具为客户降低运营复杂性,有效提升工作效率;

4) 提供较高级别的可靠性和安全性,来保护数据存储;

为此,亚马逊云科技在2022 re:Invent全球大会发布了全新的数据管理服务Amazon DataZone,助力客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理,同时提供更精细的控制工具,管理和治理数据访问权限,确保数据安全。企业中的各类人员都可以通过Amazon DataZone轻松访问整个组织的数据以提升企业的数据洞察力。

针对ETL(数据的提取、转换和加载过程),亚马逊云科技在本次大会上发布了两项全新的集成功能,帮助客户实现“Zero-ETL”(零ETL)。业务数据往往需要通过ETL才能进行分析从而提供洞察,但这一过程往往耗时且枯燥。现在,客户可以使用Amazon Redshift近乎实时地分析Amazon Aurora中的数据,无需在不同服务之间进行ETL。客户还可以使用亚马逊云科技的分析和机器学习服务在Amazon Redshift的数据上轻松运行 Apache Spark应用程序。

亚马逊云科技还新推出五项数据库和分析服务全新功能,让客户能够更快、更轻松地管理和分析PB级数据。Amazon DocumentDB Elastic Clusters可将客户的文档工作负载扩展到支持每秒数百万次请求,并支持PB级数据存储;Amazon OpenSearch推出了Serverless无服务器功能,可帮助客户在无需配置、扩展或管理底层基础设施的情况下运行搜索和分析工作负载,这一更新也标志着亚马逊云科技数据分析服务的全面无服务器化;Amazon Athena for Apache Spark能让客户开始使用Apache Spark进行交互式分析的时间从数分钟缩短到一秒以内;Amazon Glue Data Quality可以跨数据湖和数据管道自动管理数据质量;Amazon Redshift现在支持跨多个亚马逊云科技可用区(AZ)的高可用配置。

此外,亚马逊云科技在本次大会上推出了机器学习服务Amazon SageMaker的八项新功能以及Amazon QuickSight的五项全新功能。其中,新的Amazon SageMaker治理功能可以在整个机器学习生命周期中提供对模型性能的可见性;新的 Amazon SageMaker Studio Notebook 功能提供了增强的Notebook体验,让客户只需点击几下即可检查和解决数据质量问题,促进数据科学团队之间的实时协作,通过将Notebook代码转变到自动化作业,加速机器学习实验到生产的过程;其他一些新功能可自动执行模型验证,并且让地理空间数据处理变得更容易。Amazon QuickSight 新功能可以支持业务人员直接用自然语言提问各类预测问题,并能够给出预测依据,大大降低了企业从数据中获取业务洞察的门槛。

对未知的世界进行探索需要安全做支撑,在数字化转型中也一样。只有有了强有力的安全做保证,企业才能在业务拓展中走得更好,更远。亚马逊云科技在本次大会上分享了安全的四大目标:快速帮助客户提升安全水平降低安全成本减少安全问题的处理时间提高企业安全的效率,并围绕这四大目标推出了一系列新的服务及功能,包括:

新推出的第五代虚拟化芯片Amazon Nitro5在给客户带来性能提升之外,也提供了更高的安全性;

Amazon Verified Permissions通过将授权与业务逻辑分离,加速应用程序开发,通过权限集中和策略生命周期管理,节省时间和资源,使用自动化分析来确认权限是否按预期执行,从而大规模简化合规性审计工作,通过动态、实时授权决策构建支持零信任架构的应用程序。

云托管服务安全数据湖Amazon Security Lake,可以自动将客户在云端和本地的安全数据集中到客户在亚马逊云科技账户下专门构建的数据湖中,方便客户针对安全数据做出快速行动。Amazon Security Lake通过可定制的数据备份保留设置实现数据生命周期管理。该服务可将传入的安全数据转换为高效的Apache Parquet格式;支持OCSF标准,使得它可以更轻松地对来自亚马逊云科技的安全数据实现自动标准化,并能将其与几十个预集成的第三方企业安全数据源进行结合。安全分析师和工程师可以使用Amazon Security Lake聚合、管理和优化大批量迥然不同的各类日志和事件数据,实现更快的威胁检测、调查和事件响应,高效、快速地解决潜在问题,同时继续使用他们熟悉的分析工具。

进一步丰富了Amazon GuardDuty功能。现在,Amazon GuardDuty可为Amazon Aurora提供威胁检测,以识别对存储在 Aurora 数据库中的数据的潜在威胁。Amazon GuardDuty RDS Protection可配置和监控客户账户中现有和新数据库的访问活动,并使用定制的机器学习模型来准确检测Aamon Aurora数据库的可疑登录。Amazon GuardDuty与Amazon Aurora集成,可以直接访问数据库事件,而不需要修改数据库,而且不影响数据库性能。

新推出了Amazon KMS External Key Store(Amazon XKS),进一步提升客户数据的安全性。该功能让客户能够在亚马逊云科技之外的外部密钥管理系统中使用加密密钥、独立授权和审核来加密或解密数据。此项功能可与100多项亚马逊云服务相集成,免去了客户繁琐的集成开发工作。

“人类探索南极的故事说明,当你面对极端环境时,‘足够好’往往意味着‘还不够好’,当面临极端挑战时,必须选择那些专门定制、功能足够强大的工具和解决方案。”陈晓建认为这对亚马逊云科技的数百万客户来说也是如此——极端的挑战意味着对性能的极致要求;意味着在充满不确定性的时代,快速、敏捷的进行现代化应用开发,提高业务的敏捷性;意味着每个企业都需要积极掌握最新科技,探索未知的未来。

2022re:Invent在底层架构服务方面的更新包括三个方面:1. 极致性能的自芯片战略2. 极速构建的云原生应用3. 面向极限未来的高性能计算(HPC)需求

Annapurna(安纳布尔纳峰)是一座在喜马拉雅群山中海拔8091米的极高峰,也是亚马逊云科技自研芯片团队的名字。自2013年推出Amazon Nitro系统以来,通过10年的努力,亚马逊云科技已经开发了多款自研芯片,包括五代Nitro系统、致力于为各种工作负载提升性能和优化成本的三代Graviton芯片、用于加速机器学习推理的两代Inferentia芯片,以及用于加速机器学习训练的Trainium芯片。

在本次2022 re:Invent全球大会上,亚马逊云科技再次推出了一系列底层技术更新,包括第五代虚拟化芯片Nitro5、Gravition3E以及机器学习推理芯片Inferentia2,并推出了由三款自研芯片支持的Amazon Elastic Compute Cloud(Amazon EC2)最新实例。其中,Amazon EC2 Hpc7g实例采用了Amazon Graviton3E芯片,与当前一代Amazon EC2 C6gn实例相比,浮点性能提高了2倍;与当前一代Amazon EC2 Hpc6a实例相比,性能提高了20%,为高性能计算工作负载提供了超高性价比。

Amazon EC2 C7gn实例采用Amazon Nitro5,与当前一代网络优化型实例相比,为每个CPU提供了多达2倍的网络带宽,同时将每秒数据包转发性能提升50%,为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比。Amazon EC2 Inf2实例采用Inferentia2,是专门为运行多达1,750亿个参数的大型深度学习模型而构建的,与当前一代Amazon EC2 Inf1实例相比,可提供高达4倍的吞吐量,降低多达10倍的延迟,且成本更优,延迟更低。

高性能计算的应用几乎触及我们生活的方方面面,正在上映的《阿凡达2》就选择了亚马逊云科技来进行影片效果的渲染。陈晓建说,当前用户对HPC的需求表现在三个层面:需要最HPC的计算实例;需要配套的网络、存储等服务的支持;需要各种任务管理的能力

为此,亚马逊云科技对核心的底层SRD网络协议(Scalable Reliable Datagram,可扩展的可靠数据报)进行了创新,推出了高速虚拟网卡ENA Express,提供一致的更低延迟和更高网络吞吐量。SRD协议是亚马逊云科技开发的一种网络协议,专为亚马逊云科技环境中实现一致且低延迟的网络而构建的,具备多路径传输、微秒级重传和Nitro芯片提供专用资源三大优势,能够显著降低网络延迟,提高网络吞吐量。

针对负载巨大且高度复杂的模拟应用场景,亚马逊云科技推出了Amazon SimSpace Weaver服务,帮助客户构建、操作和运行大规模的空间模拟仿真系统。客户使用该服务可模拟出100万个以上、实时交互的仿真对象,创建比以往更加复杂的环境,并且将模拟仿真系统部署的时间从数年缩短至数月。

供应链管理并不是一个新问题,但对供应链的精细化管理从来不是容易的。需要从ERP和各个独立系统中收集和处理数据,这会带来昂贵的咨询服务、漫长的开发周期和复杂的后期维护。而且,即使已经确定了最关键的问题,用户仍然需要找到解决问题的优异方案。

基于Amazon.com近30年的物流网络经验,亚马逊云科技在本次大会上推出的新应用程序Amazon Supply Chain,帮助企业提高供应链的可见性,做出更快、更明智的决策,并降低风险、优化成本及改善客户体验。Amazon Supply Chain可自动合并、分析多个供应链系统的数据,企业因此可以实时观察供应链运营的情况,更快地发现趋势,更准确的预测需求,确保充足的库存满足客户预期。Amazon Supply Chain还通过提供统一的数据湖、机器学习驱动的洞察、行动建议和应用程序内协作功能,提高客户供应链的韧性。

新推出的分析服务Amazon Clean Rooms,它可以帮助不同行业的公司轻松、安全地分析和协作处理组合数据集,无需共享或泄露原始的底层数据。借助Amazon Clean Rooms,客户可以在几分钟内创建一个安全的数据清洗空间,与亚马逊云科技之上的其它公司协作,生成与广告营销活动、投资决策、临床研究等相关的独特洞察。Amazon Clean Rooms为保护敏感数据提供了一组内建的数据访问控制,包括查询控制、查询输出限制、查询日志和加密计算工具。

针对生物医疗行业,亚马逊云科技推出了Amazon Omics。这是一项用于存储、分析和阐述基因组学、转录组学和其他组学数据的托管服务。该服务专为医疗保健和生命科学组织而设计,旨在加强患者护理并推进科学研究,它的推出将有助于靶向疾病的治疗。

陈晓建强调称,从大量复杂的数据中获得洞察,充满信心探索未知的领域,有足够的安全感承受外部的压力,在最极端的条件下应对挑战,以及拥有无限可能的想象力,这就是云真正的力量。未来,云服务将继续带来颠覆性变革,亚马逊云科技将与各行各业的“探路者”企业一起,在极端环境下充满信心应对挑战,畅想未来的无限可能。

文章来自:https://www.eet-china.com/