引言
星环科技于2021年3月发布了星环极速大数据平台TDH的8.0版本。相信很多用户都对这款产品非常感兴趣。
本系列文章向您逐一介绍TDH8.0全新功能和技术创新。帮助企业级数据平台用户更全面、深入地了解前沿的大数据技术,更好地技术选型。
您也可以在星环科技官方视频号、星环社区服务号、以及bilibili、腾讯视频等站点看到我们的视频。
往期精彩回顾
TDH8.0 使用必读 :为什么你需要存算解耦的多模型数据管理平台
2021年,你还在用单模型数据库吗
如今越来越多的企业在谈论数字化转型。早期阶段,企业会选择一些要点场景,进行数据采集、存储、分析、决策、应用的尝试。单一的、相对固定的成熟场景,购买市场上合适的大数据或数据库产品通常都能支撑。
随着数字化转型的深入和企业的快速发展,业务部门的扩张、不可预测的需求变化、业务创新时机的来临、企业管理标准的提高等各类情况出现时,各自独立的大数据和数据库产品如同一个个数据孤岛,成为不同场景、项目、业务、部门间数据互通的壁垒。
企业在数据融合创新过程中,可能需要使用关系型存储、文本存储、图存储、对象存储、搜索引擎、地理空间存储、键值存储、宽表存储、时序数据存储、事件存储等更丰富的数据存储模型。使用多种单模型数据库将会导致数据冗余、数据一致性治理难、数据跨库分析难、资源配置难等一系列问题。同时,多产品的语言与接口不统一,学习成本高,运维成本高,系统的总拥有成本也会不断提高。
企业为什么需要多模型大数据平台
近年来,越来越多的企业逐渐意识到:未来的大数据平台,既要为不同的项目场景配置不同数据模型以保障其高性能,又要让数据操作和运维更便捷、更统一。因此在一个统一平台中多种数据模型并用变得越来越流行。
早期的几种多模型数据平台实现路径,仅仅简单地将多个单一模型数据库组合在一个软件系统中。用户可以使用关系数据库来持久化结构化表格数据; 使用文档存储来存储非结构化类对象数据; 使用键/值存储来存储散列表; 使用图数据库来存储高度链接的参考数据。在同一个项目中组合多个单模型数据库,仅仅在界面的统一,并不能根本性的解决问题。
与之相比,原生的多模型大数据平台在以下方面具有天然优势:
1. 更强大的数据一致性。业务需要不同的数据模型时,多模型大数据平台天然支持一份逻辑数据,多种数据建模,应用于多个不同场景。避免了使用多个单一数据模型产品时,面对的数据一致性、数据导入导出延时、数据冗余等问题。
2. 更灵活的资源弹性。多模型大数据平台,将不同模型的存储和计算资源池化,可以根据业务需要随时增减数据模型的种类,灵活部署和回收计算和存储资源,真正做到按需分配,用完回收,更灵活、更充分的使用好存储计算资源。
3. 更简洁的操作与运维。多个单模型数据库产品,往往接口不同、语法各异,开发人员学习成本高昂,专业技能门槛高。使用统一的多模型大数据平台,开发人员只用学习统一的语言、统一的接口来操作多个数据模型,难度显著降低。
星环科技的多模型大数据平台实现路径
目前常见的多模型数据库架构如下所示,传统的架构主要采用了三种实现模式:
第一种:为每一种新数据模型开发独立完整的存算策略。缺点是存算耦合,支持的模型越多,系统的开发量和复杂度就越高,消耗存算资源也较多。
第二种:用单一存储引擎支撑多个存储模型。缺点是由于不同计算数据模型对于存储的要求不同,单一存储引擎无法随之匹配适合的存储策略,从而限制了多模型数据库的性能。
第三种:在多种独立数据库之上提供统一的用户界面,对底层多个数据库进行转发。缺点是由于底层多个数据库开发语言不一致,导致了实际开发时的高难度,排除故障的成本也较高。
这三种实现方式都存在着不同程度的问题,为了解决这些问题,我们需要一套统一的架构来同时支持多模型、高可用与高性能。星环极速大数据平台产品 TDH(Transwarp Data Hub)8.0 版本采用了原创的分层架构设计:提供了统一的 SQL 编译器层,统一的分布式计算引擎层 ,统一的分布式数据管理系统层以及统一的资源调度层, 基于存算解耦合实现了支持10种数据模型模型。
SQL层:统一的SQL编译器
Quark是星环自主研发的分布式SQL编译器,兼容多种方言的SQL编译器,包括HiveQL,Oracle,DB2,Teradata等方言,也包括了算子和类型系统。TDH中的各个数据库产品遵从一致的SQL规范。用户不需要因为场景切换、数据库切换而造成接口、开发语言切换而烦恼。统一的SQL查询使得开发人员学习成本极低,开发的代码可移植性更强,技术对接更加容易。
计算层:统一的分布式计算引擎 Transwarp Nucleon
Nucleon是星环自主研发的分布式计算引擎。计算引擎能根据不同的存储引擎自动匹配高性能算法,无需用户手工干预,从而便捷地实现 跨库关联,避免数据导入导出。
数据管理层:统一的数据存储系统为不同存储引擎提供公共的存储管理服务
TDDMS是星环自主研发的分布式数据管理系统,管理数据多副本间的强一致;管理数据在存储介质上的合理分片分布,扩缩存储容量时,自动管理数据重分布,充分利用存储资源;保障数据高可用,在存储硬件故障时,保持数据存储服务不中断。 TDFS (Transwarp Distributed File System)是星环自主研发的分布式文件系统,提供文件目录结构及有关服务;主要用于数据批量导入和导出的时候以文件形式进行数据交换的功能。
资源管理层:统一的资源调度系统TCOS
TCOS是星环自主研发的云原生操作系统,贴合服务器硬件和操作系统;提供统一的资源调度框架,通过容器化编排,统一调度计算、存储、网络等各类基础资源。支持一键部署TDH, 在线扩容、缩容, 同时支持基于优先级的抢占式资源调度和细粒度资源分配。 TCOS基于先进的云原生技术构建,适配了多种主流的CPU架构和多种操作系统,支持不同硬件、不同操作系统的服务器混合部署。在集群扩容时,客户不用担心新旧设备兼容性问题,资源利用率更高。
异构存储引擎层:用8款异构存储引擎支持10种存储模型
采用星环科技的多模型数据管理平台,不同源的数据,仍然使用不同存储引擎存储,保障其高性能。不同的数据库,都架构在统一多模型数据平台中,跨库的关联分析不需要额外的数据导出导入过程,避免了数据冗余,使用十分便捷。TDH8.0提供了8款独立的存储引擎保障了不同存储模型的高性能。用户可以根据业务的需要,随时增减不同的存储引擎,做到资源按需分配。
1、关系型分析引擎 Inceptor——关系型数据存储
Transwarp Inceptor 是星环科技自主研发的关系型分析引擎,提供PB级海量数据的高性能分析服务。Inceptor是全球首个通过分析决策系统国际基准测试TPC-DS的产品;同时支持完整的SQL标准语法,兼容 Oracle、IBM DB2、Teradata方言,兼容Oracle和DB2的存储过程,可以平滑迁移应用;支持分布式事务处理,保障数据强一致性。Inceptor帮助用户快速开发数据湖、数据仓库等应用。
2、宽表数据库 Hyperbase——宽表存储、对象存储、文本存储
Transwarp Hyperbase是星环科技自主研发的NoSQL宽表数据库,支撑百万级高并发、毫秒级低延时业务需求。Hyperbase支持结构化数据,及文本、图像、视频、对象等非结构化数据的存储;支持全文索引、二级索引等索引技术;提供多租户管理;支持SQL标准语法,并兼容开源HBase。Hyperbase帮助用户快速开发历史数据查询、业务在线检索等应用。
3、分布式图数据库 StellarDB——图存储
Transwarp StellarDB是星环科技自主研发的企业级分布式图数据库,提供高性能的图存储、计算、分析、查询和展示服务。StellarDB支持原生图存储,百亿点、万亿边、PB级大规模图数据存储;具备10+层的深度链路分析能力,提供丰富的图分析算法和深度图算法;支持标准图查询语言并兼容OpenCypher,并具备海量数据3D图展示能力。StellarDB帮助用户快速开发欺诈检测、推荐引擎、社交网络分析、知识图谱等应用。
4、搜索引擎 Transwarp Scope——全文搜索
Transwarp Scope是星环科技自主研发的分布式搜索引擎,提供PB级海量数据的交互式多维检索分析服务,能够实现高可靠、高扩展性的全文搜索与灵活查询。毫秒级快速响应用户的检索需求;分钟级快速恢复单点故障。Transwarp Scope支持结构化、半结构化,及图片、音影、互联网数据等非结构化数据存储,并保障数据的强一致性。Transwarp Scope帮助用户快速开发文本信息分析检索、企业级搜索引擎等应用。
5、时空数据库 Spacture——地理空间存储
Transwarp Spacture是一款自主研发的分布式时空数据库,提供空间地理、时空轨迹、遥感影像等海量数据的存储、 查询、分析和挖掘服务。Spacture具备高性能数据读写和分析能力。支持OGC标准图形类型和空间关系,兼容常见的开源和商业GIS软件;内置了时空索引、空间拓扑几何、遥感影像处理等高效算法。Spacture帮助用户快速开发时空查询分析、时空模式挖掘、时空轨迹聚类等应用,广泛应用于位置服务、城市管理、交通物流、疫情防控等场景。
6、键值数据库 Transwarp KeyByte——键值存储
Transwarp KeyByte是一款高性能键值数据库,提供数据实时插入与高并发检索服务。KeyByte 采用主从高可用架构,支持容灾、主备自动切换和故障迁移;兼容Redis核心数据结构与API;支持数据的持久化;支持弹性扩展。KeyByte帮助用户快速开发热点数据缓存、高并发数据存储、实时或限时业务支持等应用。
7、时序数据库 Transwarp TimeLyre——时序数据存储
Transwarp TimeLyre 是一款时序数据库,提供海量时间序列数据的高效压缩存储和高性能分析服务。TimeLyre 支持数据高速读写,每秒处理数十万条记录和数百次查询。TimeLyre帮助用户快速开发各类业务与设备的实时监控、 实时预警、实时故障诊断等应用。
8、事件存储库 Transwarp Event Store——事件存储
Transwarp Event Store是一款高吞吐分布式NoSQL数据库,提供消息和事件的存储与处理服务。Event Store支持数据持久化;支持数据从指定时间点重放,保证数据顺序性;具备弹性扩展和容错能力。Event Store帮助用户快速开发日志收集、应用监控、流式数据处理、在线分析等应用。
除了以上的8款存储引擎之外,TDH8.0还依旧提供了我们的经典产品:实时流计算引擎Slipstream和数据科学平台Sophon Discover,满足用户的多样使用场景。
实时流计算引擎 Slipstream——实时监测、实时ETL
Transwarp Slipstream是星环科技自主研发的企业级、高性能实时流计算引擎,支撑百万级高吞吐、毫秒级低延时业务需求。Slipstream 支持事件驱动和微批处理两种模式,支持exactly-once语义、复杂事件处理(CEP)、规则引擎等功能,支持SQL编程与开发。Slipstream帮助用户快速开发实时数据仓库、实时报表分析、实时智能推荐、实时欺诈检测与风险控制等应用。
数据科学平台 Sophon Discover——数据挖掘、机器学习
Transwarp Sophon Discover是星环科技自主研发的数据挖掘分析探索工具包,其包含丰富的分布式算法库,并内置了诸如金融反欺诈、舆情文本挖掘等多个行业应用模块。Sophon Discover可实现R、Python、Spark等多种编程语言进行数据分析处理,并支持Tensorflflow、Torch等深度学习算法框架、异构硬件资源的统一运筹与管理。
TDH8.0 实践方案
在TDH 8.0中,实时流处理采用Slipstream;结构化数据的批处理、数据湖、数据仓库采用Inceptor;宽表存储、文本存储、对象存储等非结构化数据采用Hyperbase;从而构建实时流处理、批处理、数据湖、数据仓库一体化方案。
平台还提供其他服务,适用于全文检索的搜索引擎Scope;适用于实体间多层级链路关系分析的图数据库StellarDB;适用于时空地理分析的时空库Spacture等等。
多模型大数据平台,与传统开源方案相比,架构复杂度低、开发成本低、运维成本低、数据处理效率高。
总结
星环多模型大数据管理平台TDH 8.0,采用“接口、计算、管理、调度四层统一、存储模型十种异构”的创新架构,在保障不同数据模型高性能、高可靠、高可用的同时,实现了资源配置更灵活、操作运维更简洁易用的目标。
在未来,我们相信,从大型企业和机构,到小微企业,再到个人开发爱好者,都可以通过便捷接入的方式,友好的开发环境,轻松的搭建、开发、运维自己的数据平台和应用。将大数据来自每个人,又服务于每个人的理念,从科幻变为科技现实。
来源:freebuf.com 2021-06-16 15:57:12 by: 星环科技官方
请登录后发表评论
注册