ITPUX技术网

交流 . 资讯 . 分享
Make progress together!
Oracle数据库DBA高级工程师培训视频
Oracle数据库培训-备份恢复-性能优化-集群容灾
mysql数据库视频教程

MPP NewSQL数据库集群

内容发布:benx22| 发布时间:2014-12-4 12:12:15
MPP NewSQL数据库集群

-软件发掘数据价值-

支撑企业超大规模数据仓库案例介绍

武新,CTO-南大通用数据技术有限公司
2013年4月18


目录

GBase 8a MPP Cluster

电信经分类DW案例介绍

企业简介& QA

GBase 8a
大数据引发的行业变革


2012年5月,GBase8a 参与中移动下一代DW选型测试

电信行业新一代DW平台的选型是下一代数据分析平台技术的较量,

也是国内数据库产品和国外产品开始站在了同一个起跑线上!

Exadata

南大通用


中移动数据仓库:业务背景

Exadata

南大通用

本次测试共有8个数据库厂商参与:Oracle,IBM,Microsoft,EMC,HP,SAP,
Teradata和南大通用。测试方案覆盖了经营分析数据仓库建设的所有业务流程,包括:ODS(运营数据集市)到EDW(企业数据仓库)的汇总、转换过程、即席查询、多维分析、混合
负载、大并发、高可用、动态扩展。中移动提供全程监控的测试环境,各个参与厂商面对真实
数据和极其复杂的业务场景公平竞争。

测试结果:GBase8aMPPCluster,在规定的时间内顺利完成测试,与HP和EMC在
基于X-86的云平台上并列第一。


目录

GBase 8a MPP Cluster

电信经分类DW案例介绍

企业简介& QA

大数据引发的行业变革


OldSQL

一种架构支持多类应用

(One Size Fits All)

分析

互联网

事务

M.Stonebraker

多种架构支持多类应用

OldSQL

事务

NoSQL

互联网

NewSQL

分析

大数据引发数据处理架构变革

大数据时代

架构多元化

基于Stonebraker教授的论文。传统数据库的基本架构是30年前以事务处理为主要应用设计的。
大数据的主要应用是分析类的,应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有
应用”转变成“多种架构支持多类应用”。数据库行业出现三个互为补充的三大阵营,OldSQL、
NewSQL和NoSQL。

(斯教授主创的数据库产品Ingres、Informix、PostgreSQL和Vertica)


大数据激发技术创新

OldSQL

.行存储
.关系型
.SMP


NoSQL

.Key-Value
.MapReduce
.MPP


NewSQL

.列存储
.关系型
.MPP


大数据激发了数据库行业技术创新的热情,主要的驱动力是对处理性能的强烈需求。为了提升性能,NewSQL
阵营普遍采用了列存储技术; NoSQL阵营普遍采用了KV技术。三个阵营都不同程度地采用了分布式计算、分
布式文件系统、内存计算技术,并积极地使用新的硬件技术,如大内存、Flash、SSD和高速网络连接(万兆
交换机和Infiniband)

分布式计算,分布式文件系统

内存计算(In Memory Computing)

新的硬件:Flash Card,SSD,Infiniband(40G/s)


大数据推动产品创新

OldSQL

.TimesTen
.Altibase
.SolidDB
.Exadata
.Netezza
.Teradata


NoSQL

.Hadoop
.HBase
.Bigtable
.Cassandra
.Dynamo
.Dremel
.Impala


NewSQL

.GBase8a
.Greenplum
.Vertica
.AsterData
.Sybase IQ
.F1/Spanner


大数据推动了数据库行业的产品创新,NewSQL阵营在过去五年里形成了近十个商用的产品,去年Google
发表论文介绍了F1/Spanner关系型数据库(未开源)。NoSQL阵营的技术源于互联网公司Google,
Yahoo,Amazon, Facebook等。OldSQL阵营在基本架构不变的基础上引入内存计算和一体机技术以提
升处理性能。


新型NewSQL数据库市场格局

公司

产品

技术特点

产品来源

NewSQL

国外厂商

Sybase IQ

列存+ 共享磁盘

收购(2010)

HANA

内存数据库+ 列存

收购(2009)

Vertica

列存+ MPP

收购(2011)

Greenplum

行存+ 列存+MPP集群

收购(2010)

PDW

列存+ MPP集群

预计2013年初

国内厂商

GBase8a

列存+ MPP集群

国内唯一(2008年)

NoSQL

国外厂商

BigTable

列存+ Key Value

Google(2004年)

HBase

列存+ Key Value

开源社区(2006年)




大数据的宏观视图:行业与互联网大数据

文件

报表

纳税分析

社保分析

决策支持

预测

结构化

+半结构化

公安网监

国安技侦

舆情监控

银监会稽查

食品溯源

环保监测

结构化

+半结构化

音视频

地震勘探

气象云图

卫星遥感

雷达数据

物联网

非结构为主

中国既有互联网大数据、更有行业大数据,是世界为数不多的数据大国。

行业大数据的价值密度、对数据库厂商的价值更大。

电信信令

电信话单

金融细账

金融票据

电力调度

智能电网

经营分析

结构化为主

10%结构化

30%半结构化

60%非结构化

价值密度

结构化

>半结构化

>>非结构化

大数据领域

行业大数据

互联网大数据

经营类

管理类

监管类

专业类


目录

GBase 8a MPP Cluster

电信经分类DW案例介绍

企业简介& QA

大数据引发的行业变革


GBase 8a应用定位:分析类应用、全数据处理

Old SQL 数
据库:
Oracle, DB2


服务器产生
的数据:

网络、电
信、金融、
物联网等

设备产生的
数据:

遥感、高
分、雷达、
地震、气
象、扫描、
音视频等

结构

关系模型

半结构

全文检索

+

DFS

非结构

元数据

+

DFS

应用

ETL


直接加载

元数据提取


GBase 8a
应用类型

.数据分析挖掘
.全文检索+ 查询、统计
.非结构大数据管理
.查询、统计


应用领域

.政府
.行业
.安全
.物联网





传统的Shared Disk架构

memory

CPU

CPU

disks

memory

CPU

CPU

memory

CPU

CPU



Interconnection Network

Shared storage:SAN,NAS

数据






新型的Shared Nothing + MPP 架构技术

disks

disks

memory

CPU

CPU

disks

memory

CPU

CPU

disks

memory

CPU

CPU

Interconnection Network



数据

数据分布策略

Hash,

Range,

Random…

MPP架构横向扩展最多192个节点










Shared Disk和Shared Nothing架构对比

.Oracle RAC


.GreenPlum
.HDFS
.HBase


.GBase 8a
.Vertica
.Teradata


数据库集群架构

Shared Disk

Shared Nothing

有Master

无Master


GBase 8a MPP Cluster集群架构特征

SQL

应用程序

..

Interconnect

数据库节点

数据分发节点

无Master,节点对等的扁平架构。高性能,高密度节点。完全并行的MPP+SharedNothing架构,在
线节点动态伸缩。多副本数据,透明高可用。

ftp, nfsetc

外部数据来源


GBase 8a Cluster集群架构探秘

分布式

数据管理层

分布式

存储层

分布式

集群管理层

…..

集群节点

分布式任务

分布式并行

任务管理层

应用层

统一接口层JDBC,ODBC,.Net, CAPI

SQL

SQL

A

B’

GBase8a

列存储引擎

全文检索引擎

数据多个副本

GCWare

OS+存储

GCluster

Coordinator

Optimizer

Parser

A’

B

数据多个副本

GCWare

OS+存储

GCluster

Coordinator

Optimizer

Parser

GBase8a

列存储引擎

全文检索引擎

高速数据链接


核心技术:集群高可用性保证机制-Safegroup

GBASE
Cluster

database

T1p2

T1p1

T1p3

node1

T1p2

T1p1

T1p3

node3

T1p2

T1p1

T1p3

node2

数据2个副本

Replicator/复制引擎

一个Safegroup


核心技术:在线动态扩展能力

GBase
Cluster

database

.通过Safegroup动态扩展集群节点
.可以实际扩展到64x3个节点
.每个节点可以处理10-20TB有效数据
.每个节点同时提供计算和存储能力
.Gcware负责新节点的数据同步



目录

GBase 8a MPP Cluster

电信经分类DW案例介绍

企业简介& QA

大数据引发的行业变革


移动经分DW测试:测试目标

本次测试的测试目的是针对在某电信运营商的经营分析领域中应用GBase8a MPP Cluster数
据库,在大数据量,多运算节点环境下进行的现网实际需求的性能测试。

智能分析领域

大数据

电信行业


移动经分DW测试:业务场景描述

本次测试的数据表按全国4.9亿用户生成,以1年为时间跨度,按平均每人每年450次普通通话话单,
1200次网络流量话单产生的业务数据。

普通话单与网络流量话单

4.9亿手机用户

1年时间跨度


移动经分DW测试:业务场景描述

本次测试过程使用某电信运营商测试规范中的测试数据模型,生成200T的数据,其主要数据模型分
布情况如下。

数据表名

中文名称

字段数


单行长


数据规模
(亿行)

数据量

XXX_VOIC_XXX

普通语音话单

80

584

2240

124 TB

XX_SVC_XXXX_XXX

用户

80

536

4.9

180 GB

XXX_XXX

明细账单

5

60

28

148 GB

XX_XXX_XXX_XXX_HIST

用户开通业务功能历史

4

59

28

180 GB

XX_XXX_XXXX_ORG_XXXX_XXX

集团业务个人用户绑定关


6

63

14

69 GB

XXXX_CDR

网络流量话单

12

129

5600

76 TB




万兆网络环境

移动经分DW测试:平台测试环境介绍

80节点集群

1×监控节点

3×加载节点

测试环境一共分为三个部分,由3个加载节点组成的加载模块,80个运算节点组成的集群模块和1个
监控节点的监控模块组成,各个部分间通过万兆网络环境互连。


T1p2’

T1p1’

T1p2

T1p1

node1

node2

一个
Safegroup

SafeGroup中每
个节点相互备份

40X2
SafeGroup

集群

.80个运算节点,采用40*2进行部署,分为40个SafeGroup。
.SafeGroup是GBase8a MPP Cluster 的高可用机制,每个Safegroup最多支持三个存储节点,数
据存储3份,保证数据和计算的高可用。
.此次测试每个SafeGroup中包含两个运算节点相互备份。


移动经分DW测试:平台测试环境介绍


部署结构示意图

移动经分DW测试:网络部署


硬件配置项

详细信息

机器型号

DELL PowerEdge R720XD

CPU

2*4 core(Intel(R)Xeon(R)CPU E5620
@2.40GHz)

内存

64GB

硬盘

3.6T(600GBx6,1 5K转SAS盘)

网卡

10Gb DA/SFP+聚合网络适配器



硬件配置项

详细信息

交换机型号

DELL PowerConnect8024F

交换容量

480Gbps

内存

16MB

端口

24

端口类型

SPF+



.通用的x-86 2U, 2路PC 服务器
.64GB 内存
.6x600GB 15k SAS 盘
.10K Ethernet 网络
.标准linux操作系统
.84台服务器
.5台万兆交换机
.部署跨7个机柜


移动经分DW测试:平台基础环境介绍


移动经分DW测试:测试场景分类与方法

本次测试场景可分为数据加载与存储测试、功能测试、性能测试、压力与稳定性测试、可扩展测
试、高可用测试、压缩测试7大类,15小类,总计29个测试用例,测试用例分布如下图所示。

7%

14%

62%

7%

4%

3%

3%

测试用例分布

数据加载和存储测试2个

功能测试4个

性能测试18个

压力和稳定性测试2个

可扩展测试1个

高可用测试1个

压缩测试1个


移动经分DW测试:测试场景分类与方法

.本次测试分为2个阶段进行测试,分别为64节点集群测试与80节点集群测试。
.每个测试用例均以测试脚本形式执行测试,全程避免人工干预。
.每个测试用例执行前进行清理缓存操作,保证全部在冷数据情况下进行测试,并开启系统资源监控
和集群总体状态监控。


测试方法

32X2
SafeGroup

集群

40X2
SafeGroup

集群

64节点集群测试阶段

80节点集群测试阶段

扩容


移动经分DW测试:测试用例汇总

测试用例分布情况

数据加载和存储测试

.单表加载
.多表加载




功能测试

.基本语句测试
.OLAP函数测试
.资源分配测试
.管理功能测试




性能测试

.基本操作、数据rollback
.并发多任务
.数据导出
.端到端测试




压力和稳定性测试

.压力测试
.稳定性测试




可扩展测试

.64节点扩80节点测试




高可用测试

.节点故障后可恢复性测试




压缩测试

.归档压缩





测试结果–数据加载能力测试

加载机

加载机

加载机

GBase8a Cluster

200T数据文件

148T存储空间

数据加载与存储测试用于测试GBase8a Cluster的数据加载与存储的能力,它包括单表与多表加载测试
用例,本次测试通过3个加载机同时进行加载,加载过程开启归档压缩。

.由于存在副本,实际入库参与预算的数据量为400TB,采用压缩入库,压缩比为1:2.7,实际占存储空间148TB(含副本数据)。



功能测试主要包括对标准SQL语句支持测试,OLAP函数支持的测试,资源负载管理测试,系统管理测试4
部分内容。

.标准SQL语句支持测试用于测试对于SQL92标准的支持情况,共计283个SQL语句,本次测试全部通过。
.OLAP函数支持测试用于验证对常用OLAP函数的支持能力与性能指标,本次测试包含6个SQL语句,本次
测试全部通过。
.资源负载管理测试,用于验证在多用户环境下对不同用户发起的任务请求进行资源的占用限定机制,本
次测试包含3个测试案例,本次测试全部通过。
.系统管理测试,用于验证系统提供的外部管理能力,包含4个测试案例,本次测试全部通过。


功能测试


19.7

22

2.7

2.1

45.5

171.9

0.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

180.00

200.00

Avg_over


Sum_over


Rank_over


Row_number_over


Rollup


Cube


1000s

SQL样例:

SELECT subs_id,

avg(mer_amt-disc_amt)

over (partition by subs_id

order by acct_prd_ytm)

From ×××_××××;

OLAP函数测试是针对用户详单表,数据量在28亿级别进行的测试,测试结果如下:

功能测试:OLAP 函数测试结果


性能测试包括基本操作测试,数据Roll back操作,并发多任务,端到端测试4大类,18个测试用例,
包含35条SQL语句。

.基本操作测试用于验证应用基本操作类型时的性能表现,包含8个测试用例,涵盖了7条SQL语句;
.数据Roll back操作用于验证数据回滚的性能表现,包含2个测试用例,涵盖了4条SQL语句;
.并发多任务用于验证在多并发情况下的性能表现。包含5个测试用例,涵盖了9条SQL语句;
.端到端测试用于考察在端到端场景下的性能表现。包含3个测试用例,涵盖了15条SQL语句;


22

性能测试内容


基本操作测试包括全表扫描、多表关联、Merge操作、Insert、Update、Delete、嵌套、Distinct去重
操作,执行结果如下所示。

性能测试结果–基本操作

0

1000

2000

3000

4000

5000

全表扫描


多表关联


Merge
操作


Insert
操作


Update
操作


Delete
操作


嵌套操作


Distinct
去重


基本操作

基本操作

单位:秒


千亿级别

十亿级别

亿级别

.记录数:2240亿
.查询时间:2568.3 s




.记录数:28亿
.查询时间:36.8 s




.记录数:4.9亿
.查询时间:16.1 s




全表扫描是一个可以完全并行分布的SQL,GBase8a的列存储+MPP架构在亿级规模的表上可达到秒级
响应。下面案例包含最常用SQL统计函数。

性能测试案例–全表扫描

SQL样例:

SELECTsubstr(CALL_BGN_TM,1,2),
sum(CFEE),avg(LFEE),
max(LFEE2),
min(INFO_FEE),
avg(DISC_CFEE),
avg(DISC_LFEE),
sum(DISC_LFEE2),
sum(DISC_INFO_FEE),
count(distinct(MSISDN))

FROM×××_VOIC_×××

GROUP BY

substr(ALL_BGN_TM,1,2);

xxx_voic_xxx表中的数据按照MSISDN自动做一致性hash分布


多表关联1

.关联表:流量表、用户表、内容计费业务代码
.数据量:2240亿+4.9亿+维度表
.结果集:42
.执行时间:2008.7 s




多表关联2

.关联表:话单表、用户表、用户类型维度表
.数据量:5600亿+4.9亿++维度表
.结果集:12
.执行时间:2230.4 s




性能测试案例:多表关联

SQL样例:

SELECTcount(A.MSISDN),
sum(A.CALL_DUR),
sum(A.UP_DAT_STRM_AMT),
B.CMCC_PROV_PRVD_ID,
C.BUSN_NAME

FROM××××_CDR A

JOIN ××_SVC_××××_××××B

ON A.MSISDN=B.MSISDN

JOIN ××_×××_×××_××××_××××C

ONA.BUSN_CD =C.BUSN_CD

WHERE A.CALL_BGN_TM>'YYYYMMDDHHMMSS'

AND B.SUBS_TYP_CD in('1','2')

AND substr(A.MSISDN,1,2) in ('13','15','18','14')

GROUP BY B.CMCC_PROV_PRVD_ID,C.BUSN_NAME;

多表关联用例,测试GBase8a MPP Cluster对大事实表与维度表关联的性能。


大表并发查询

.关联表:流量表、用户表、内容计费
业务代码表
.数据量:5600亿+4.9亿
.并发量:20
.查询总数:100次
.结果集行数:42行
.总执行时间:3270.3 s




小表并发查询

.关联表:用户表、账单明细表
.数据量:4.9亿+28亿
.并发量:100
.查询总数:100万次
.结果集行数:1行
.总执行时间:7348.6 s




多任务并发查询用例用于测试GBase8a Cluster在单个用户下使用SQL语句做多并发查询,验证其查询
效率。

大表查询样例:

SELECT count(A.MSISDN),

sum(A.CALL_DUR),

sum(A.UP_DAT_STRM_AMT),

B.CMCC_PROV_PRVD_ID,

C.BUSN_NAME

FROM xxx_CDRA

JOIN ××_SVC_××××_××××B

ON A.MSISDN=B.MSISDN

JOIN ××_×××_×××_××××_××××C

ON A.BUSN_CD =C.BUSN_CD

WHERE A.CALL_BGN_TM>='20120114000000‘

and A.CALL_BGN_TM<='20120114235959‘

and B.SUBS_TYP_CD in('1','2')

and substr(A.MSISDN,1,2) in ('13','15','18','14')

GROUP BY B.CMCC_PROV_PRVD_ID,C.BUSN_NAME;

小表查询样例:

SELECT count(*)

FROM ××_SVC_××××_××××A

LEFT OUTER JOIN ×××_××××B

on A.SUBS_ID=B.SUBS_ID

WHERE A.MSISDN=‘×××××××××××';

性能测试案例:多任务并发

.算子条件中的日期与手机号从原表中随机获取





多任务并发insert用于测试GBase8a Cluster在使用同一用户做多次并发insert操作,验证数据插入效
率。用例分为2部分组成,分别针对表进行大数据量并发插入操作以及小数据量并发插入操作。

大表并发insert

.并发量:20
.查询目标表数据总量:2240亿
.insert总数:100次
.一次insert行数:5.1亿行
.总执行时间:39233 s




小表并发insert

.并发量:100
.查询目标表数据总量:4.9亿
.insert总数:100万次
.一次insert行数:1行
.总执行时间:27481 s




性能测试案例:DML –并发insert

SQL样例(大表并发):

INSERT into ×××_VOIC_×××_TMP1

SELECT * FROM ×××_VOIC_×××

WHERE CALL_BGN_DT =‘yyyymmdd’

SQL样例(小表并发):

INSERT into ××_SVC_××××_××××_TMP1

SELECT * FROM ××_SVC_××××_××××WHERE
MSISDN=‘××××××××'

.算子条件中的日期与手机号从原表中随机获取





省经端到端用例是性能测试中比较重要的一个用例,它包括背景加载任务,统计查询业务,精确查询业
务,Merge操作,插入操作、更新操作、删除操作和数据导出。

混合负载场景测试案例:省经端到端测试

查询SQL样例:

SELECTCOUNT(A.MSISDN),SUM(A.CFEE),

COUNT(DISTINCT B.MSISDN),COUNT(DISTINCT A.MSISDN)

FROMXXX_VOIC_XXX_TMP4 A

JOINXX_XXX_XXXX_HIST_TMP4 B

ON A.MSISDN=B.MSISDN and B.SUBS_TYP_CD='2'

LEFT JOINXX_XXX_XXX_XXXX_TYPE C

ON A.CDR_SUBS_TYP_CD=C.CDR_SUBS_TYP_CD and
C.CDR_SUBS_TYP_CD IN('0','4','2')

LEFT JOINXX_XXX_XXX_FUNC_HIST_TMP4 D ON B.SUBS_ID=D.SUBS_ID

LEFT JOINXX_XXX_XXXX_XXX_XXXX_SUBSCRB_TMP4 E ON
D.SUBS_ID=E.SUBS_ID and E.ORG_SVC_TYP in('32619598','87007319')

WHEREA.CALL_BGN_DT>'20110622‘ and A.CALL_DUR > 10 and A.SVC_TYP in
('003','004','005') and substr(A.MSISDN,1,2) in ('13','15','18','14');

.查询涉及数据量:122亿行
.导出数据量:229G
.加载数据量:1.2T
.Merge数据量:6.9亿行
.Insert数据量:7.4亿行
.Update数据量:7.4亿行
.Delete数据量:7.4亿行



VGOP端到端用例是整个端到端用例中最为复杂的一个用例,它包括背景加载、前景加载、多任务并发
查询、多任务并发Insert和数据导出。

VGOP端到端测试–真实业务环境模拟

.查询数据量:5600亿行
.加载数据量:829G
.导出数据量:149G



.在数据量为200TB下,完成了64节点到80节点的扩容操作。同时在64和80节点分别执行了SQL语句,
考察扩容后的系统性能。扩容耗时60小时。
.测试结果:节点数增加了25%,查询性能提升了20%,呈线性提升。


32×2
SafeGroup

集群

40X2
SafeGroup

集群

扩容

扩展性测试:64 到80 节点扩展

0

5000

10000

15000

20000

25000

30000

avg

sum

Rank

Row_number

全表扫描

多表关联

Distinct

线性扩展能力

64节点

80节点

单位:秒

0

10000

20000

30000

avg


sum


Rank


Row_numb…


全表扫描


多表关联


Distinct


64节点

单位:秒

0

10000

20000

30000

avg


sum


Rank


Row_number


全表扫描


多表关联


Distinct


80节点

单位:秒


.高可用测试执行了节点故障测试以及节点恢复测试,整个恢复过程耗时2小时,且该过程还执行了背景
SQL,是考察在此场景下数据库对应用的高可用和故障后的可恢复能力。


高可用

网络连接
异常

节点级异


GBase8a
Cluster

高可用测试:在线替换2个服务器

.节点恢复工作总耗时2小时,恢复过程中数据库可以正常使用



压力测试主要内容是采用能力摸高的方式操作,测试数据库在高压力之下的处理能力,该测试在2240
亿数据量下,包含了1个SQL,测试过程服务器资源监控如下。

压力测试

测试结果汇总分析介绍

SQL样例:

SELECT sum(TA.CALL_DUR),
sum(TA.CFEE_BILL_DUR),
sum(TA.LONG_FEE_BILL_DUR),sum(TA.CFEE),
sum(TA.LFEE),sum(TA.LFEE2),
sum(TA.INFO_FEE),
sum(TA.DISC_CFEE),
sum(TA.DISC_LFEE),
sum(TA.DISC_LFEE2),
sum(TA.DISC_INFO_FEE),
sum(TB.MER_AMT),
sum(DISC_AMT)

FROM ×××_VOIC_×××TA,×××_××××TB,××_SVC_××××_××××TC

WHERE TA.MSISDN=TC.MSISDN and
TB.SUBS_ID=TC.SUBS_ID and
substr(TA.MSISDN,7,5)=‘×××××’

0

2000

4000

6000

8000

10000

12000

14000

0

20

40

60

80

100

11:50

12:00

12:10

12:20

12:30

12:40

12:50

13:00

13:10

13:20

13:30

13:40

Disk xfers

usr%+sys%

System Summary 2013/2/4

CPU%

IO/sec


千亿级大表关连案例

SELECT a.cust_brnd_id, sum(b.total_call_dur)
total_call_dur,

sum (case when c.total_flowis null then 0 else
c.total_flowend) total_flow

FROM TB_SVC_SUBS_HISTa

JOIN ( select MSISDN,

SUM(call_dur) as total_call_dur

from GSM_VOIC_CDR

group by MSISDN) b

ON a.MSISDN=b.MSISDN

LEFT JOIN (select MSISDN,
sum(up_dat_strm_amt+dwn_
dat_strm_amt) as total_flow

FROM GPRS_CDR

group by MSISDN) c

on a.MSISDN=c.MSISDN

group by cust_brnd_id;

3张表数据量

返回结果集

执行时间

5600亿+2240亿
+4.9亿

3

3.8小时



按用户品牌,计算1年内所有用户通话、数据业务总量

挑战和核心技术:

.对复杂SQL产生完全并行分布的SQL执行计划
.每个单节点上的并行hash join 效率
.单节点上8a 列存储引擎的高效统计能力
.全列扫描的效率



压力测试下系统资源瓶颈分析–数据导出

单个节点可达到的上限:

.读写=500MB/s
.I/O=35000次/s
.网络=600MB/s


数据汇总节点系统资源统计

每个计算节点系统资源统计

磁盘I/O能力仍然是系统瓶颈!


测试总结–关键指标

.数据加载性能:4.7TB/小时,持续稳定
.数据压缩比:1:2.7 (真实数据压缩比远大于此值)
.单个查询响应时间:秒级到小时级
.混合业务场景支持:加载+查询+DML+数据导出
.大表关联:2个千亿级表+亿级维度表
.复杂查询:OLAP 函数的支持
.高可用:在线替换任何物理节点
.高扩展能力:在线扩展集群、数据重分布
.稳定:高压下连续24小时稳定运行
.并发:同时执行上千个SQL



测试总结–我们学到了什么?

高可用,故障恢复

集群必须有故障自动检测和恢复能力

100节点,1PB结
构数据

NewSQLMPP数据库集群能够解决行业大数据分析问题,处理能力远
远超过SMP的小型机架构

易用性,可维护性

集群产品必须要有高效的自动优化能力,自我监控、诊断能力

动态扩展,生命周
期管理

集群必须具有动态扩展、在线替换节点、平台生命周期管理功能,实现
rolling upgrade

所有测试都是在数据压缩态下实现、没有使用任何索引,分区,物化视图


数据仓库支撑

ODS,EDW,DM:

百TB支撑能力–万亿行多表join,复杂统计

大数据查询,统
计、分析

互联网、移动互联网、金融、电信、物联网等:

PB支撑能力–海量数据边入库边使用

R-OLAP Cube

基于星形、雪花模型的多维分析:

TB支撑能力-TB级别的CUBE实时钻取

即席查询、统计分


基于任何字段组合的随机查询、统计:

百TB支撑能力–几百列的宽表任意组合查询

8a MPP Cluster 应用场景总结

..

Interconnect

8a的优势是大数据,但是小数据也有适用的场景如ROLAP


大型行业IT支撑架构现状分析

优点:

.过去20年形成的成熟技术体系
.适合支撑业务固定、数据量小且增长缓慢的应用


高端小型机

潜在问题和困难:

.每TB数据管理成本在20-50万RMB之间
.单个系统很难超越100TB数据规模
.很难应对快速发展的新业务需求、数据快速增长需求


.系统单一、孤岛式部署为主
.数据库以传统OldSQL为主
.以SMP的小型机为主
.案例:某电信运营商拥有40PB高端存储、5000台以上小型机



新型数据库如何解决IT大数据支撑问题?

从SMP 到MPP

对比项

SMP (特殊环境)

MPP (开放x-86环境)

每TB数据处理成本

20-50万元

2-5万元

系统处理能力

100TB

1PB

应用支撑能力

单一、固定

多样、弹性



.逐步取代传统数据库》使用新型MPP分布式数据库
.小型机的垂直扩展能力已经达到极限
.MPP集群的横向扩展能力优势明显:互联网证明了一切
.新型大数据平台在大数据处理上的价值明显:




.去小型机化》基于x-86的云化改造



MPP架构的横向扩展能力

内容

测试平台

最大可能容量

CPU

1280 核

1280核

2*8 cores

内存

5TB

20TB

内部存储容量

281.25TB

562.5TB

15k,600GBSAS

I/O 带宽(读)

62.5GB/秒

80GB/秒

I/O带宽(写)

31.25GB/秒

40GB/秒

IOPS

80万

100万

网络带宽

800MB/s (使
用10K Ethernet)

2GB/s(使用IB)



80 台2U 普通PC Server 意味着什么样的处理能力?


数据处理技术趋势:混搭架构,多种技术

MPP/NoSQL

SMP/

OldSQL

MPP/NewSQL

TB

PB

EB





数据价值密度,实时性

数据管理能力


目录

GBase 8a MPP Cluster

电信经分类DW案例介绍

企业简介& QA

大数据引发的行业变革


天津南大通用数据技术有限公司

GBase产品解决方案供应商

GBase数据库产品供应商

注册时间:2004年5月

注册资金:2000万元

总资产:1.2亿

员工数:400人

基本情况

天津:总部与技术基地

北京:营销中心

分公司或办事处:

沈阳、西安、济南、南京

广州、成都等11个城市

经营地区

入选2010年国家规划布局

内重点软件企业。

是人员规模最大、市场占有

率最高、技术能力最强的国

产数据库厂商。

企业实力

数据库产品研发与销售

企业简介


特色产品、优质服务、本土厂商、十年努力

安全数据库分析型数据库目录数据库内存数据库
安全市场行业市场政务市场
通用数据库
Altibase

GBase 8a

GBase 8s

GBase8d

GBase 8g

神舟通用(核高基)

2005-今

2001-今

2004-今

2007-今

安全自主高速


企业资质

公安部信息安全产品销售许可

ISO27001安全体系

国家规划布局内重点软件企业

商用密码产品定点单位

高新技术企业

软件企业

ISO14000环境体系

ISO9001质量管理体系

国军标资质认证


企业资质:国家规划布局内重点软件企业

.连续两届入选“国家规划布局内重点软件企业”(全国共242家)
.2011-2012年度国产数据库唯一入选企业
.国家五部委联合认定(国家发改委、工信部、商务部、财政部、国税总局)



上一篇:分享一篇2011年TERADATA年会关于DBQL的资料
下一篇:Vertica数据库安装手册
回复

使用道具 举报

1框架
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表