大数据公司基因不同侧重点也不同,每一家都会根据自己的产品定位、适用的业务场景突出大数据平台的能力。而客户和用户更关注你的大数据平台是什么架构具有哪些技术能力。本文将概括性系统性的分享大数据平台的能力。
一、大数据平台基本能力
1. 基于存储和计算分离的架构
在传统MPP架构下,计算存储共享一个节点,每个节点有自己独立的CPU、内存、磁盘资源,互相不共享,不太容易满足云时代不同场景下的不同workload需求。
而通过分离存储资源、计算资源,可以独立规划存储、计算的资源规格和容量。这样计算资源的扩容、缩容、释放,均可以比较快完成,并且不会带来额外的数据搬迁的代价。存储、计算也可以更好的结合各自的特征,选择更适合自己的资源规格和设计。
2. 基于云原生的数据平台
基于云平台进行构建、部署和交付的数据库服务。
公有云和私有云部署:支持微软、亚马逊、阿里云等公有云平台。
容器部署支持:Docker与Kubernetes。
3. 面向开源生态的存储引擎
与Hadoop生态融合。
Hadoop Native:从存储(HDFS),资源管理(YARN)到部署(Ambari)。
轻松访问所有HDFS数据(TXT、CSV、ORC等)和外部系统数据(例如,Hive)。
开发插件来访问新的数据源:高级C/C++访问库到HDFS和YARN:libHDFS3和libYARN。
结合新的执行器,外部存储的性能得到很大提升。
4. 基于并行处理和代价的优化器
负责接受查询树,生成查询计划。针对一个查询,可能有数亿个等价的查询计划,但执行性能差别很大。优化器的作用是找出优化的查询计划。
优化器基于代价而不是基于规则。
5. 基于SIMD(单指令多数据流)的执行器
执行器是数据库最核心的部件之一,新一代SIMD执行器使用了多项专利技术,可以充分利用最新CPU的每一个特性,比如SIMD(单指令多数据流),可以做到指令内并行,达到性能的极致。比其他数据库要快一个量级以上。
6. 基于Raft协议的一致性
raft是工程上使用较为广泛的强一致性、去中心化、高可用的分布式协议。
分布式存储系统通常通过维护多个副本来进行容错,提高系统的可用性。要实现此目标,就必须要解决分布式存储系统的最核心问题:维护多个副本的一致性。
7. 基于数据挖掘的机器学习函数库
为AI应用开发者提供的机器学习函数库,包含大部分通用深度学习算法函数,并针对分布式架构进行了优化,易于使用及高性能。
8. 面向复杂网络环境下的跨域数据共享交换技术
跨域共享交换面向复杂网络条件下的数据交换需求,通过建立统一的数据生成、采集、处理、传输、交换的应用服务渠道,搭建统一的开发配置、部署、监控和服务体系,实现数据交换全生命周期的信息化管理和应用能力。
二、大数据平台核心能力
1.确保交换业务的全程安全保密性,支持多种算法的数据加解密,保障信息的跨安全域交换的安全可控性。支持与专业安全传输设备协同传输的方式,支持在不同密级、不同网域、不同场景下的协同联动;
2.实现跨层级、跨部门、跨应用业务的交换服务,满足不同组织结构内部数据共享和业务协同;
3.支持多种交换任务触发方式,包括定时/实时触发器、时间戳、标志位等多种数据捕捉方式,支持任务的人工审核和系统自动触发的能力;
4.支持基于数据库库表、数据文件的资源目录服务管理,实现统一配置部署、运维监控的交换管理;
5.支持路由转发功能,实现节点间数据交换和远程管理。
7. 基于数据全生命周期的安全体系
提供敏感数据识别、数据安全审计、数据脱敏、智能异常检测等安全能力,形成一体化的数据安全解决方案。
以及多种认证手段,包括:信任认证、口令认证、Kerberos认证、基于Ident认证、通过TCP/IP 进行Ident认证、通过本地套接字进行Ident认证、Ident映射、LDAP认证、PAM 认证。
加密技术保障数据传输、数据接入和数据存储安全。
8.基于多维属性的数据权限管理技术
基于资源统一定义和管理框架为角色以及资源叠加附件属性策略和限制条件,支撑在策略执行点的动态权限管控;以继承模型实现角色和权限的复用,避免每次由于权限和业务变动产生的大量新增问题;通过融合不同权限模型结合在应用运行时权限决策点实时计算实现基于属性策略的权限控制,解决传统数据权限管理存在权限与角色紧耦合,扩展性、动态性、可控性较差等问题。
以上就是关于大数据平台能力的知识希望对大家有帮助。