搜索
您的当前位置:首页正文

分布式文件系统现状探讨研究

来源:好走旅游网
・238・ 2015年4月 电子科技 中文科技期刊数据库【文摘版)自然科学 分布式文件系统现状探讨研究 谢莉祥 重庆交通大学信息科学与工程学院,重庆400074 摘要:本文就从早期的NFS到现在时下流行的GFS、HDFS、Lustre等,再到淘宝、facebook、雅虎、谷歌等各个公司在 分布式文件系统上的各种实现。分布式应用系统主要介绍:分布式键值系统、分布式表格系统、分布式数据库等。 关键词:分布式文件系统;HDFS;分布式系统架构;NFS;Lustre;FreeNAS Discussion of Distributed File System Status XIE LIⅪANG Information Science and Engineering,Chongqing Jiaotong University Abstraet:In this PaDer,the popular GFS,HDFS,Lustre,etc.,to Taobao,facebook,Y OO,Google and other companies in he various itmplementations of a distributed file systern from he earlty NFS to the present.Distributed Application System introduces: distributed key systems,distributed form systems,distributed databases. Keywords:distributed ilfe system;HDFS;the distributed system architecture;NFS;Lustre;FreeNAS 中图分类号:TP316.4 引言 文献标识码:A 文章编号:1671.5578(2015)04.0238.01 分布式文件系统(HDFS)被设计成适合运行在通用硬件 进21世纪以来互联网在全球得到了飞速发展,各行各业 (commodity hardware)上的分布式文件系统。它和现有的分布 都使用计算机辅助工作;大到各大巨头企业使用计算机进行日 式文件系统有很多共同点。但同时,它和其他的分布式文件系 常工作,小到一个普通商店也使用计算机管理进销存资金流转 统的区别也是很明显的。HDFS是一个高度容错性的系统,适 等,整个世界已经和计算机融合在一起;计算机的普及使用也 合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问, 意味着数据量的增多,目前,数据量已经从TB(1024GB=lTB) 非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX 级别跃升到PB(1024TB=IPB)、EB(1024PB=lEB)乃至ZB 约束,来实现流式读取文件系统数据的目的。 (1024EB=1ZB)级别[1】。而到目前为止,人类生产的所有印刷 HDFS是一个主从结构,一个HDFS集群是由一个名字节 材料的数据量是200PB,全人类历史上说过的所有话的数据量 点和多个数据节点组成,名字节点提供文件查询服务和文件管 大约是5EB。IBM的研究称,整个人类文明所获得的全部数据 理,客户端从名字节点查询数据然后向数据节点请求数据,大 中,有9O%是过去两年内产生的。而到了2020年,全世界所 体结构上和Lustre相似,但是HDFS在设计的时候考虑到了 产生的数据规模将达到今天的44倍[2】。 高可靠性,将硬件故障作为常态处理,大大提高了系统的可靠 性。 1 NFS网络文件系统 第一个文件服务器在1970年代被发展出来。在1976年 4结束语 目前分布式文件系统大体架构己经进化到了主从式结构, 迪吉多公司设计出FileAccessListener(FAL)做为第二代 DECnet的一部分。这个系统实作了Data Access Protocol,是 主从结构一般有三种对象:文件目录管理服务器、数据管理服 第一个被广为使用的网络文件系统。在1985年太阳微系统创 务器、客户端。 建了网络文件系统(Network File System,NFS),这是第一个 文件目录管理服务器:主要负责文件系统中的文件目录管 基于网际协议(Intemet rotPoco1)而被广泛使用的网络文件系 理,记录文件的存储位置,应答客户端的文件操作请求操作, 动态调整文件目录结构: 在随后的三十年间出现了很多的的分布式文件系统,流 数据管理服务器:负责数据块的组织,应答客户端的文件 传比较广的有:Lustre、Hadoop、MogileFS、F ̄eNAS、 上传和下载操作。 FastDFS、NFS、OpenAFS、MooseFS、pNFS、以及GoogleFS 。 客户端:向文件目录管理服务器请求文件位置,向数据管 统。 NFS是最早实现的文件系统,在过去三十年里已经推出 理服务器上传或者下载数据。 过四个大的版本。在几乎所有的主流的操作系统中都有支持。 衡量分布式文件系统的参数有:数据吞吐量,文件获取时  NFS是业界内最富盛名的分布式文件系统。NFS是一个成功 间,最大支持容量,可靠性。的文件共享方法,但它最大的问题是它不太适合子大型的分散 式系统 。 参考文献 [1]Sanjay Ghemaw ̄,Howard Gobioff,Shun-Tak Leung.《The 2 Lustre分布式文件系统 GooSe File System)) Lusrte文件系统架构是Petr eBraam1999年开始的一个研 [OL].http://labs.google.com/papers/gfs.html2012(12):65. 究项目,皮特当时在卡内基梅隆大学担任教职。Lusrte文件系 [2负载均衡技术[2]OL].http: aike.baidu.corn/view/1234431. 统将文件系统分为了三个部分:元数据服务器、对象存储服务 器、客户端;将文件名服务和数据分开缓解了单机负载过大的 成为系统瓶颈的问题,但是单个的元数据服务器仍然是整个系 统的瓶颈。这种将数据与目录结构分开的结构在后来广为使用, 使用目录服务器管理文件系统的组织结构,使用数据服务器存 储数据,而客户端查询目录服务器中文件的所在的数据服务器 后直接向数据服务器请求数据【5】。 htm 2014(11):78. [3]hadoop详细资料[OL].http://hadoop.apache.org 2012(o4): 86. [4】王峰,雷葆华.Hadoop分布式文件系统的模型分析[J】.北京: 电信科学,2010(03):216. [5]李龙来,吴杰等.基于Web服务的分布式文件系统管理与 优化方案[J].北京:计算机工程与设计,2012(07):104. 3 HDFS文件系统 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top