学海荡舟手机网

主页 > 实用文摘 > 教育文摘_22 > > 详细内容

数字视频在线存储的优化设计分析_消费类电子论文

河南电视台都市频道技术部 王虎
今年中南地区电视技术年会优秀二等奖

简介

    本文通过分析数字视频在线存储的相关技术,分别从在线存储的模式、存储容量、读写带宽、高可用性和磁盘分区等五个方面详细分析了在线存储的优化设计,并结合河南电视台都市频道节目制作网的在线存储设计来说明在线存储设计的优化方式及步骤

关键字

数字视频  在线存储  优化设计

一、前言

    在广播电视领域,过去、现在,还是将来,存储都是人们在讨论的一个永恒不变的话题。因为我们知道,无论是使用传统录放机进行一对一或多对一的节目编辑、还是使用非线性网络进行非线性编辑,我们操作的对象都是媒体数据,而这些媒体数据都离不开存储,所以说存储是整个系统的核心,这里所说的存储指的是在线存储。然而在线存储不单纯是服务器主机内配置几块硬盘,或者是主机通过scsi数据线连接一个硬盘阵列。而其应该是一个系统,在这个系统中,有很多相关因素和技术存在,比如存储模式、存储容量、读写带宽、高可用性、可扩展性、可管理性等等。

针对这些情况,优化设计数字视频在线存储已经是很多电视台需要考虑的一个现实问题。

二、在线存储优化设计分析

(一)在线存储模式的优化设计

    目前磁盘存储市场上,存储分类(如下表一)根据服务器类型分为:封闭系统的存储和开放系统的存储。封闭系统主要指大型机,比如as400等服务器。开放系统指基于包括windows、unix、linux等操作系统的服务器;开放系统的存储又分为:内置存储和外挂存储;开放系统的外挂存储根据连接的方式分为:直连式存储(direct-attached storage,简称das)和网络化存储(fabric-attached storage,简称fas);开放系统的网络化存储根据传输协议又分为:网络接入存储(network-attached storage,简称nas)和存储区域网络(storage area network,简称san)。


表一:目前磁盘市场的存储分类

    电视台的非线网络用到的存储基本上都是属于开放系统的存储,所以对于封闭系统的存储,在这里就不加以说明和比较。
从表一中我们可以看出,开放系统的存储又分为内置存储和外挂存储。内置存储就是我们通常说的在主机内插入一块或几块硬盘。

    这种存储的缺点很明显,一是由于机箱空间的限制,不能插入更多的硬盘,这样在存储容量上就不能满足工作的需要;另外就是机箱内没有专门的通风设施,硬盘的工作环境恶劣。所以数字视频的存储一般也不采用内置存储模式。

    目前,数字媒体的在线存储一般都采用外挂存储的存储模式,即:直连式存储(das)、存储区域网络(san)、网络接入存储(nas)。这三种存储模式的系统结构如图一所示:

1、直连式存储(das)

    开放系统的直连式存储(direct-attached storage,简称das)已经有近四十年的使用。das是指将存储设备通过scsi接口或光纤通道直接连接到一台计算机上。

    在电视台刚开始使用单机非线编时,das是主要采用的模式。比如单机版的广告串编系统、单机版的非线性编辑等。但是随着非线性网络的建立,媒体数据的不断增长,尤其是现在的存储容量要求在数百gb,甚至数tb以上时,das在备份、恢复、扩展、灾难备份等方面的问题日益困扰系统管理员,成为系统的瓶颈。

das存在的主要问题和不足是:

(1)直连式存储依赖服务器主机操作系统进行数据的i/o读写、存储、维护管理,数据备份和恢复要求占用服务器主机资源(包括cpu、系统i/o等)。

(2)直连式存储与服务器主机之间的连接通道通常采用scsi连接,带宽为10mb/s、20mb/s、40mb/s、80mb/s等;随着服务器cpu的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,scsi通道将会成为i/o瓶颈;服务器主机scsi id资源有限,能够建立的scsi通道连接有限。

(3)无论直连式存储还是服务器主机的扩展,从一台服务器扩展为多台服务器组成的群集(cluster),或存储阵列容量的扩展,都会造成系统的停机,从而给工作带来不便。

2、存储区域网络(san)
    存储区域网络(storage area network,简称san)采用光纤通道(fibre channel)技术,通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。san经过十多年的发展,已经相当成熟。san存储采用的带宽从100mb/s、200mb/s,发展到目前的1gbps、2gbps。
san的优点有以下几个方面:
(1)san提供了一种与现有lan连接的简易方法,并且通过同一通道支持广泛使用的scsi和ip协议。san不受现今主流的、基于scsi存储结构的布局限制。特别重要的是,随着媒体数据的爆炸性增长,san允许独立地增加它们的存储容量。
(2)san的结构允许任何服务器连接到任何存储阵列,这样不管数据置放在哪里,服务器都可直接存取所需的数据。因为采用了光纤接口,san还具有更高的带宽。
(3)因为san是从基本功能剥离出存储功能,所以运行备份操作就无需考虑它们对网络总体性能的影响。san也使得管理及集中控制实现简化,特别是对于全部存储设备都集群在一起的时候。
3、网络接入存储(nas)
    网络接入存储(network-attached storage,简称nas)采用网络(tcp/ip、atm、fddi)技术,通过网络交换机连接存储系统和服务器主机,建立专用于数据存储的存储私网。

nas的优点有以下几个方面:

(1)即使相应的应用服务器不再工作了,仍然可以读出数据。
(2)简易服务器本身不会崩溃,因为它避免了引起服务器崩溃的首要原因,即应用软件引起的问题。

4、san和nas的比较

通过以上的分析,我们可以看到san和nas存在下面的区别:

san:通过专用光纤通道交换机访问数据,采用scsi、fc-al接口。

    nas:用户通过tcp/ip协议访问数据,采用业界标准文件共享协议如:nfs、http、cifs实现共享。
    nas和san最本质的不同就是文件管理系统在哪里。如图二所示:
由图二可以看出,san结构中,文件管理系统(fs)还是分别在每一个应用服务器上;而nas则是每个应用服务器通过网络共享协议(如:nfs、cifs)使用同一个文件管理系统。换句话说:nas和san存储系统的区别是nas有自己的文件系统管理。
(二)在线存储的存储容量优化设计
    我们知道,在建立一个非线性编辑网络之前,我们用户要和开发商共同协商写出一份可行的实施方案。在这个方案中,存储容量是作为设计存储的一个关键要素考虑的,因为在线存储设备及周边的一些设备都是价格不菲。存储容量设计过小,将来遇到栏目增加的情况时,就会影响到工作。到那时唯一可以做的就是考虑容量升级的问题,这样即浪费了钱财和人力,又给工作带来许多不便。相反,容量设计过大,就会造成资源的浪费,增加经济开支。所以在设计在线存储时,存储容量也是必须要进行优化设计的。
存储容量有总容量和有效容量的概念。总容量就是指所有硬盘的容量之和,而有效容量是在总容量的基础上减去做冗余技术的空间和磁盘分区占用的空间。当然,用户最关心的是有效容量。同时,在电视台应用中,还存在“片比”和“节目保留时间”的概念:原始素材的大小是成片的几倍;新闻类节目保留时间是一周左右,而制作类节目会更长,这就对存储系统的初始容量、后期容量扩充能力提出了很高的要求。
    优化在线存储的存储容量设计时,要从以下几个方面考虑:
(1)首先要确定素材的码率,然后根据码率计算出一小时的素材占用的存储空间。比如素材上载时的码率是30mbps,则一个小时的素材占用的存储空间就是:
30mb/s×3600s/8/1000=13.5gb
(2)根据电视台现有的节目及节目时长、播出频率、片比、节目保留时间确定总体存储容量。如表二,是河南电视台都市频道在建立非线性节目制作网时,根据本频道的节目情况,确定的总体容量需求表(码率为50mbps,1小时的素材量为24gb)。

栏目
名称

成品带
(分)

素材带(分)

说明

最大上载
时长(分/小时)

最大存
储量(gb)

导视

20

40

一天8档,时间总长是20分钟,最多一次作4天的节目

40/0.7

17

都市有约

20

60

一星期一期节目,每期节目包括专题、新片介绍、下周影视介绍及主持人

60/1

24

情景剧场

45

60

星期一到五,每天一期,最多一次作4期节目

240/ 4

96

经典回放

90

110

每天两集,两盘带的时长加上最多10分钟的广告,最多一次作4集节目

220/3.7

89

都市剧场

104

130

每天两集,两盘带的时长加上最多15分钟的广告,最多一次作4集节目

260/4.3

103

子夜剧场

100

120

每天两集,最多一次作4集节目

240/4

96

往事

36

45

每星期除星期二以外每天一期,最多一次作4期节目

180/3

72

周末剧场

90

120

每星期六一期

120/2

48

杨澜访谈

25

40

每星期天一期

40/0.7

17

乐海冲浪

20

60

每天一期,包括mtv、主持人、新闻、广告,最多一次作3期节目

180/3

72

早餐

50

60

每天一期

60/1

24

体育界

30

35

每天一期,广告1分钟

35/0.6

14

都市逍遥

10/16

60

星期一到五每天一期10分钟,星期六、星期天每天一期16分钟,最多一次作3期节目

60/1

24

星登陆

30

120

每星期一期

120/2

48

智多星

30

50

每星期三期,每次录6期,

150/2.5

60

大舞台

40

60

每星期一期

60/1

24

总体需要有效容量

828

    从表中,可以清楚的看出建立的网络需要多大的存储空间,考虑到今后节目有可能增加及一些专题片的需要,最后确定在828gb的设计容量基础上再增加一倍的存储容量,即大约为1.7tb的有效设计容量。

(三)在线存储读写带宽的优化设计

    在线存储的容量满足后,就要考虑存储的读写速度是否满足所有工作站同时访问数据的需求。如果设计的存储读写带宽无法满足整个网络满负荷的工作需要,就有可能出现读写数据不流畅,严重时会造成网络堵塞,服务器无法在正常时间内响应。所以在优化设计在线存储读写带宽时要充分结合实际需要来确定在线存储的读写带宽。主要从一下几个方面考虑。

(1)根据网络中工作站的数量,来确定共享硬盘阵列读取压力和写入压力。比如一个非线性编辑网络中有m台工作站,其中有n台上下载工作站,素材码率是50mbps并且工作站采用的是双通道工作方式。则可以计算出:

共享硬盘阵列的读取压力:

即m台有卡工作站同时访问带宽的极限要求为50×m×2/8 mbps;

共享硬盘阵列的写入压力:

即n台上载工作站同时上载素材的最大写带宽压力为:50×n/8 mbps。

(2)根据读取压力和写入压力来设计在线存储的读写带宽。

(四)在线存储高可用性的优化设计

    我们在优化设计在线存储时,还必须考虑到媒体数据的安全问题,也就是高可用性。为了达到在线存储的高可用性的要求,就需要在各个环节上考虑到冗余技术。冗余就是重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。冗余系统配件主要有:磁盘、i/o卡、电源、风扇等。

1、磁盘冗余

    磁盘是非线性编辑网络中在线存储最关键的部分,因为一旦磁盘出现问题,就会造成素材丢失,影响到工作。所以,为磁盘配置合适的冗余尤为重要。

    目前,各家电视台基本上都搭建了非线性编辑网络,大部分网络的硬盘阵列都是做了带区集。带区集就是我们通常说的raid 0技术,它是由多个硬盘并发协同工作完成数据的读写,数据被均匀分布在各个硬盘上,一般情况下,使用的硬盘越多,读写速度越快。

    raid 0的特点是(1)读写速度快,这个特点能更好满足非线性编辑网络对速度的要求;(2)价格便宜,因为带区集是通过操作系统自带的软件功能实现的,所以不需要再购买额外的其它设备,这也是带区集被广泛采用的一个原因。但是带区集给硬盘带来的不安全因素也是致命的,因为raid 0中的一个硬盘出现故障时,整个阵列的数据将会丢失,虽说带区集信息可以保存在软盘上,可以随时恢复带区集信息,但是在保存带区集那一时刻以后的数据就无法恢复了。同时,raid 0对硬盘阵列中的硬盘数量也是有限制的,一般最多不超过32个硬盘。

    为了改善raid 0的缺点,有人提出用raid 0+1。raid 0+1是raid 0和raid 1的组合,即由两个完全相同配置的raid 0形成镜像关系,这样,即提高了阵列的读写速度,又能保障阵列数据的安全,但是,raid 0+1方式的有效容量只有所有硬盘容量一半。而且,在技术人员的实际测试中发现它的速度和稳定性都不太理想。

    实践证明,raid 3是硬盘阵列安全策略中最合适的一种。raid 3是把数据分成多个“块”,按照一定的容错算法,存放到n+1个硬盘上,实际数据站用的有效空间为n个硬盘的空间总和,而第n+1个硬盘上存储数据的校验容错信息,当这n+1个硬盘中的其中一个硬盘出现故障时,从其它n个硬盘中的数据也可以恢复原始数据,这样,仅使用这n个硬盘也可以带“伤”继续工作。当更换一个硬盘后,系统可以重新恢复完整的校验容错。由于在一个硬盘阵列中,多于一个硬盘同时出现故障的概率很小,所以一般情况下,使用raid 3的安全性是可以得到保障的。由于raid 3在向阵列中写数据时需要使用校验容错算法,并把数据分成“块”,再写到硬盘中,增加了软硬件的开销,所以和raid 0相比,raid 3的速度相对较慢,但比raid 0+1的速度要快。

    下面我们选用8块36g的硬盘,选用sanerge作为测试工具,分别对其做带区集、raid 0+1和raid 3的测试结果如表三所示:

    从测试结果我们可以看出,raid3虽然读写速度都不如硬盘带区集,但其有良好的容错和稳定性,当然在价格上肯定要比带区集昂贵。

2、i/o卡冗余

    对服务器来说,i/o卡冗余主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被pc服务器所拥有。pc服务器如micron公司的netframe9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有prosignia/proliant服务器都具有容错冗余双网卡。

3、电源和风扇的冗余

    高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。风扇的冗余也是很有必要的。

(五)在线存储磁盘分区的优化设计

    系统全部搭建结束后,就要对硬盘空间进行分区管理。不要以为硬盘空间分区是一件无所谓的事情。因为根据以往的经验,合理的分区可以对数据访问带宽、数据安全等方面都有很多帮助,同时还能使系统的管理清晰,功能明确。所以对在线存储磁盘分区也要进行优化设计。

    在线存储按照功能划分卷的一个最大好处是有利于数据的安全性。我们知道,整个网络系统的用户端对硬盘系统的访问是通过媒体数据控制服务器或文件服务器上的逻辑卷进行映射获得。如果没有合理的分卷,则所有用户都可以访问到所有的在线数据资源。这对数据安全是极其不利的。例如,我们为低码率素材单独划分一个卷,所有桌面终端仅能通过低码率服务器访问到该卷的低码率素材,而存放在其他卷上的高码率素材则不能被桌面终端访问到,如果低码率和高码率素材在同一个卷上,则任何桌面终端可以访问甚至删除准备播出下载的高码率素材。

    另外,合理地分卷管理可以把某个卷通过存储系统的配置软件让管理员赋予某些用户终端一定的访问权限,而屏蔽其他用户终端的访问权。这种存储端的分配方式并非用户终端的应用软件或操作系统所能修改的。因此,即使所谓的“电脑高手”也不能破坏和修改不属于他访问范围的数据,从更高的层次保护数据安全。

三、河南电视台都市频道节目制作网在线存储设计分析

    河南电视台都市频道节目制作网是由成都索贝数码科技股份有限公司研发、集成的。于今年11月正式投入使用。该制作网络系统是一个具有信号收录、演播室上载、节目资料共享、视音频制作的全数字环境的智能化、自动化的数据化制作网络系统,它能支持河南电视台都市频道节目制作业务的运转,并承担大部分节目生产任务。系统的成功建设实现了节目素材(包括收录、自采)的共享,充分利用计算机多媒体技术和网络技术,全面提高了频道的制作水平和效率。

    在系统实施之前,就在线存储的优化设计问题,我们提出了自己的一些看法,并同公司的技术人员进行了多次的技术论证,后来决定采用非常适合视频共享访问的美国data direct公司的s2a3000存储系统。 经过近两年的使用,感觉当初对在线存储的优化设计对我们整个系统的正常运转起到关键的作用。

(一)在线存储的系统结构

    河南电视台都市频道节目制作网在线存储系统的结构如图三所示:

s2a控制器面板接口如图四所示:

(二)在线存储的优化设计分析

1、s2a 3000产品特点

    s2a3000是data direct公司的产品。s2a无论从其针对视频的带宽要求还是安全特性方面,都非常适合于目前都市频道节目制作系统的集中在线存储。s2a是data direct公司提出的san appliance(存域网络设备)概念的产品,把交换设备、raid设备、连接设备以及管理设备整合为一个统一的整体,为用户端提供一个完全透明的、高性能的、高安全性的以及可管理性的存储设备,s2a 3000具有如下一些主要技术特点:

(1)高访问带宽:s2a 3000在系统结构中采用了12个内部磁盘通道和8个外部主机通道,其中内部的12个磁盘通道并发工作,为外部数据访问提供极高的访问带宽,外部主机端口用于连接主机或fc交换机,可以使总的外端访问带宽最高可以达到800mb/s。

(2)设计独特的directraid技术:s2a中采用了data direct公司设计的具有很高性能和安全性的directraid技术,directraid采用了真正字节条带化raid数据保护,另外所有可用硬盘同时进行读写,保证了即使在单个硬盘出现故障时,性能不会下降。

directraid的真正字节条带化raid方式,无论针对视频流式传输应用还是数据库大i/o应用都可以获得很好的性能。

(3)系统的高可用性:

    系统提供了完全冗余高速传输控制器(hstd):双控制器形成冗余的hstd对,保障系统数据的完整性和高可用性,hstd支持热插拔;

    冗余的风扇和电源:s2a拥有4个相互冗余的电源和2个相互冗余的冷却风扇。另外每个硬盘塔中同样具有2个相互冗余的风扇。

    链路冗余:在s2a中,所有的链路都是对称冗余的,每个硬盘通道通过两个磁盘通道同时和两个hstd进行连接,避免了链路故障造成的数据访问中断。

    磁盘冗余:系统中提供了4+1+1的raid技术,即每个raid组中有4个数据盘、1个校验盘、和一个spare盘,即使单个硬盘出现故障,系统可以自动进行数据热修复。另外,spare盘可以动态地为所有raid组提供spare服务,事实上可以减少spare盘的数量,从而提高整个硬盘系统的硬盘使用效率。

系统采用高密度模块化电缆连接采用高密度电缆,减少了连线数量,从而减少了连线的故障概率。

(4)可管理性:s2a系统提供了一整套系统管理软件,实现系统的集中安全的管理方式,这些管理软件包括:vlun manger(虚拟逻辑单元管理器),configuration manager(配置管理器),firmware update manager(firmware升级管理器),security manager(安全管理器),performance manager(性能管理器)。

(5)可扩展性:单台s2a 3000中可以安装多达96块146gb的硬盘,有效容量可以达到9.3tb,可以满足绝大多数应用的存储容量要求。

(6)良好的性能价格比:s2a除了在性能方面具有一定的优势,其价格相对其他诸如emc、ibm和hds的产品也具有非常大的竞争力。

2、在线存储系统的存储容量

    根据要求,系统需要2.3tb的存储容量,按照s2a的配置方法,在s2a存储系统中配置了16块146g的硬盘,其中12块为数据盘,3块校验盘,1块为备份盘,则有效容量为12×146gb=1.752tb,总容量为16×146gb=2.336tb。

3、在线存储系统的读写带宽

    根据要求,本系统对共享硬盘阵列系统进行访问的设备有9台有卡工作站和台转码服务器;

    共享硬盘阵列读取压力:即使以最高50mbps的码率,而且采用双通道工作方式,则9台有卡工作站同时访问带宽的的极限要求为50×9×2/8=112.5mbps;

    共享硬盘阵列的写入压力:2台转码工作站均只会有写硬盘的操作,目前的转码效率大约为1:1,则同时转码4路信号的最大写带宽压力为50×4/8=25mbps;

在本系统的s2a的设计中,提供2个激活的端口,这样,总的带宽达到200mbps,远远超过系统目前规模的带宽要求。

4、在线存储系统的连接

    在系统连接方面,系统配置了1台16口的FC交换机,和s2a的控制器进行双路链路连接,这样,即使和s2a连接的一个链路出现故障,所有工作站和服务器可以通过交换机和另外一个链路访问到所有的数据。

5、在线存储系统的分区管理

以下是我们根据安全性和功能性对系统在线存储划分的卷:
(1)高码率素材专用卷:专门存储收录和上载的高码率素材。
(2)低码率素材专用卷:专门用于存储mpeg4低码率素材的卷。
同时,根据节目的需要又把高码率素材专用卷划分为x盘、y盘和z盘。

四、结论

    随着技术不断的发展,多种存储技术在相互竞争、相互促进和共融,适者生存。没有绝对的先进领先,只有相对的领先。特别是设计数字媒体应用系统时,要根据对象、投资、技术要求来确定选用的存储技术和结构类型,对存储进行合理的优化设计,取得事半功倍的效果。