探讨重复数据删除技术在中央电台媒资备份存储系统中应用.docx 立即下载
2023-03-16
约3.4千字
约7页
0
15KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

探讨重复数据删除技术在中央电台媒资备份存储系统中应用.docx

探讨重复数据删除技术在中央电台媒资备份存储系统中应用.docx

预览

免费试读已结束,剩余 2 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

探讨重复数据删除技术在中央电台媒资备份存储系统中应用作者/刘华一、引言2012年初,中央电台媒资备份存储系统正式投入使用。经过一年的运行,大量的节目内容,丰富的历史资料迅速将中央电台媒资备份存储系统填满,严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20TB,增加30TB,总计达到50TB。短短一年时间,磁盘空间需求已经翻番,可以预见,中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题,如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。二、数据冗余目前,中央电台媒资备份存储系统中,存在大量的重复和冗余数据,造成数据冗余的原因可能是人为的:·为了确保文件的安全性,无意中将同样的文件存储了多份;·不同文件的部分内容重复。冗余数据占据了大量的存储空间,降低了存储空间的利用效率。图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。更重要的是:这些大量的冗余数据给媒资备份存储系带来了大量的问题:·占用大量存储空间,降低存储利用效率;·增加建设成本;·增加额外数据管理代价。三、重复数据删除概念通过相关研究和对实际系统的分析发现,在海量数字存储系统中,存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据,对相同数据只存储一份和只存储相似数据的不同部分,可以有效利用存储空间,从而有效降低存储系统成本。重复数据删除是一种数据缩减技术,旨在最小化文件之间的冗余和重复的无损压缩,并对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而达到消除冗余数据目的。目前,绝大多数的重复数据删除算法都工作在二进制数据层次上,通常使用一些数据切分算法,如以整个文件为切分粒度,固定大小的数据切分,或者某些HASH函数(如RabinFingerprinting算法),将每一个带归档的文件切分成若干相互不重叠的数据片段,并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中,只有不重复的数据片段才真正存储到存储设备中,而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。四、S48音频文件格式与其他存储系统中元数据的文件类型、文件格式多样化不同,中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言,我们需要熟悉S48文件,并针对S48文件特点进行重复数据删除工作。S48音频格式是指比特率为256kbits/s,采样率为48000Hz的MPEG1-2格式。帧是MPEG-1处理的最小单元。每个帧又由1.帧头结构帧头长4字节,对于固定位率的MP文件,所有帧的帧头格式一样其数据结构如下:typedefFrameHeader{unsignedintsyn:11;//同步信息unsignedintversion:2;//版本unsignedintlayer:2;//层unsignedintprotection:1://CRC校验unsignedintbitrate:4;//位率unsignedintfrequency:2;//频率unsagnedintpadding:1;//帧长调节unsignedintprivate:1;//保留字unsignedintmode:2;//声道模式unsagnedintmodeextension:2;//扩充模式unsignedintcopyright:1;//版权unsignedintoriginal:1;//原版标志unsignedintemphasis:2;//强调模式}HEADER,*LPHEADER;帧头4字节使用说明见表1帧文件尾的最后128个字节用来存放ID3信息,这128个字节使用说明见表2。五、重复数据删除设计思路重复数据删除的主要思路是通过利用不同层次上的元数据信息,如文件类型、文件格式、应用类型和文件系统元数据等,来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类:·应用元数据,如文件类型、文件格式、应用软件信息等;·应用或用户的标记,如用于描述图片、音频、视频等多媒体文件特性的各种标记;·文件系统级元数据,如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言,我们就需要从以下三方面实现“瘦身”。1.数据库在对数据库进行操作过程中重复的数据可能有这样两种情况,第一种是两行记录完全一样,第二种是表中只有某些字段一样。·两行记录完全一样:对于表中两行记录完全一样的情况,可以用下面语句获取到去掉重复数据后的记录:selectdistinct*fr
查看更多
灵波****ng
实名认证
内容提供者
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

文档大小:15KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用