电信业海量数据存储中的数据库实践

2011年04月20日11:46  来源:飞象网
 字号:

  4月16日,2011数据库技术大会在京召开,来自在2011数据库技术大会的商业智能、数据分析专场上来自神舟通用数据技术有限公司技术总监冯柯就迈向100TB:电信业海量数据存储中的数据库实践作为了精彩的主题发言。

神舟通用数据技术有限公司技术总监冯柯

  给你1秒钟时间,如何在几千亿条话单数据中找到用户想要的数据呢?在分区、并行查询、列存、集群等技术统统粉墨登场仍无法满足响应要求时,数据压缩和索引技术成为了致胜的关键。但先别忙着庆祝,无论是使用传统的B树索引,或通用的压缩算法,都不是问题的正解,在如此大的数据量下,我们需要使用更加专业高效的技术方法。

2011数据库技术大会的商业智能、数据分析专场

  当前电信行业数据面临的问题:

  数据:

  海量话单文件,500亿行/月,每行70列,450字节

  需要保存2+6(1)月

  数据总量超过200TB

  查询

  基于特定条件(通话起止时间、主被叫号码、局内外交换机号、产品名称等)组合的详单查询

  绝大多数查询只会返回少量的结果

压缩总体结构

  数据如何压缩?

  压缩的主要目的不是减少空间占用,而是提高查询性能

  CPU平均处理带宽3.6GB/秒(7000万行/秒/核),I/O平均处理带宽300MB/秒

  通过压缩提升I/O带宽,实现CPU与I/O处理均衡,提高查询性能

列内规则1

  使用通用压缩算法?

  LZMA:CPU处理带宽太低

  压缩比18.9:1,解码速度171MB/秒/核

  (折算后)CPU处理带宽991MB/秒,I/O处理带宽5.7GB/秒

  LZOP:压缩率太低

  压缩比7.2:1,解码速度891Mb/秒/核

  (折算后)CPU处理带宽2.4GB/秒,I/O处理带宽2.2GB/秒

列内规则2

  我们对压缩的要求

  压缩率不低于15:1

  CPU处理带宽不低于5GB/秒

  挑战2:如何索引?

  查询高选择率的特点适合选择索引

  选择传统索引?

  空间占用大

  维护成本高,对装载速度影响大

  我们对索引的要求

  占用空间对压缩率贡献可忽略不计

  维护开销对装载速度无明显影响

  选择率接近于数据的实际选择率,远快于表扫描

列内规则4

  传统索引的不足

  维护成本高

  对数据装载速度影响极大

  先建模式下:索引需要同步维护,随机插入影响性能,插入过程中无法引入压缩

  后建模式下:需要大规模的排序,创建成本高

  空间占用大

  以B树为例,二元组,按照键值顺序排列,按列压缩

  ROWID随机性强,难以被压缩,整体空间成本>6字节/

  分片索引

  技术要点:

  将表按照一定行数据分成多个数据包

  为每个压缩包建立其中各列的摘要信息(如最大值、最小值),所有数据包上的属于特定列的全部摘要信息,构成该列的分片索引

  利用摘要信息,来判定对应的数据包中是否包含满足特定的查询条件的行,如确定不存在这样的行,则整个数据包无须被解压

  主要优点:

  索引在每个数据包生成之后即自动生成,无后续维护成本

  摘要信息空间占用小,通常不足被索引的数据的1/10

  采用合适的摘要信息,可以实现接近于传统索引的过滤效果

  KSTORE主要技术特性

  数据压缩

  高压缩比、高性能,对应用完全透明

  支持行列混合存储

  水平分区

  支持多种方式的分区策略,支持二级分区

  支持并行查询和智能化分区过滤

  高可靠性

  支持多粒度备份恢复,提供在线并行备份恢复支持

  支持与Veritas、HACMP、HeartBeat等第三方软件的集成

  行业特色

  分级存储、插值更新、数据自动采集

  其它特性

  支持数据库集群(使用神通CLUSTERWARE)

  物化视图、位图索引、数据在线管理

  演讲嘉宾:冯柯:神舟通用数据技术有限公司技术总监

  冯柯,神舟通用数据技术有限公司技术总监,具有十多年从事国产数据库系统设计与实现的经验,先后作为主要负责人和技术骨干,承担多个国家核高基和863数据库重大专项及产业化项目,发表各类论文、专利和国防报告十余篇。

  【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

我有话说已有0位网友发言看看大家都说了啥

  您好,欢迎您发表评论!  (言论仅代表会员个人观点,不代表和讯网观点)

   

感谢您的参与!
查看[本文全部评论]

    订阅新闻  和讯微薄  添加到收藏夹  反馈意见

 

腾讯科技 | C114中国通信网 | 飞象网 | 中国家电网 | 挖贝网 | 手机中国 | 51nb专门网 | 科技讯 | 移动Labs | 通信世界网 | CTI论坛 | 赛迪网 | 新华网科技 | 中国软件网 | 中国质检网 | 通信产业网 | 比特网 | 支点网 | 上方网 | 小熊在线 | 速途网 | 易观网 | 慧聪家电网 | CNET科技资讯网 | 睿商在线 | 钛媒体 | 安卓网 | 光电新闻网 | 百道网 | 科技次世代网 | 人民网IT | 安智网 | 手机之家 | 环球家电网 | 新网 | 网秦 | iPhone威锋网 | 亿邦动力网 | 光明网IT | 环球网科技 | 虎嗅网 | e800 | 科易网 | 中国软件资讯网 | pc6软件下载 | DOIT| 安防知识网 | 站长网 | 第一家电网 | 科技资讯网 | 驱动中国 | 华北新闻网 | 蝌蚪五线谱网 | 大公科技 | 机房360 | 畅享网 | UC浏览器 | 移联名商 | 华强北 | 中国电子银行网 | 一财科技 | XDA智能手机网 | ZDNet至顶网| 蜂鸟网| e-works |博瑞网 |央广网科技 |会计家园 |

环球企业家 | 东方企业家 | 创业邦 | 数字商业时代 | 中国经济和信息化 | 商业周刊中文版 | 光明日报 | 新京报 | 法制晚报 | 北京青年报 | 中国计算机报 | 电脑报 | 申请友链
 

新闻热线:010-85651220

招商电话:010-85651220

E-mail: it@staff.hexun.com

地址:北京市朝阳区朝阳门外大街22号泛利大厦11层

邮编:100020

传真:010-85650806