HDFS - 文件越来越多怎么办

Mac开发者
• 阅读 1499

随着业务的发展,服务器存放的文件就越来越多,初期的时候,我们会直接通过扩容来解决这个问题。但是硬盘不可能存放未来所有增量的文件,并且硬盘不可能无限扩容,当硬盘分配完后,要么加硬盘,要么加服务器。
加硬盘可能是比较快的方式,只要在程序中判断在某个时间节点的文件,写入和读取都在指定的盘符就可以了,但是每个机器的接口有限,而且机架可以存放硬盘的位置也有限,当接口或者位置都占用了,空间不足要怎么办?所以可以用很多很多个服务器来存放并管理这些文件。
由于服务器出现问题是不可避免的,比如我们软件的bug、操作系统的bug、硬盘故障、突然断电甚至自然灾害等,所以为了保证数据的安全性,就需要用冗余的办法来存储,也就是说一个文件存放在多个服务器中,比如下图存放2个服务器,这样当服务器1出现问题的时候,我们还可以从服务器2读取文件。冗余的副本越多,数据就越安全,当然存储的服务器成本也越高。
HDFS - 文件越来越多怎么办
当存放一段时间后,服务器的情况如下,文件的大小我们是不能控制的,所以每次上传文件的时候,还需要知道这个文件是否大于待上传服务器的可用空间。另外大小不一的文件也不好管理。
HDFS - 文件越来越多怎么办
所以一般是把文件分成固定的大小块,比如64M或者128M,然后再上传到服务器。比如下图,把文件分成4块,然后存储在4个服务器中,每个块的副本是3个。
如果说服务器1不可用了,文件1、文件2、文件4在其他服务器还是存在副本的,文件还是安全的。
HDFS - 文件越来越多怎么办

点赞
收藏
评论区
推荐文章
CuterCorley CuterCorley
4年前
商业数据分析从入门到入职(5)Python基本语法和数据类型
一、从计算机到Python1.计算机与程序思维计算机最核心的三个部分为CPU、内存和硬盘,都在主板上面,除此之外,还包括键盘、鼠标等输入设备和屏幕等输出设备,如下:CPU用于进行计算,硬盘用于存储数据和文件,内存(包括缓存)用于连接CPU和硬盘,作为两者的缓冲,可以加快读取和处理速率。冯·诺依曼架构如下:程序是指定如何执行计
小尉迟 小尉迟
2年前
Mac大扫除!这些App帮你迅速清理不需要的内容,释放宝贵空间
又该整理硬盘、删除多余文件了!这些App能帮你迅速清理不需要的内容,释放宝贵的空间。这款App会用饼状图展示你硬盘中的所有内容,让你一眼发现视频和安装文件等占据空间的大块头在“饼”上占的面积越大,对应的文件或文件夹自然就越大。接下来,就层层剥开文件夹,把不
Peter20 Peter20
4年前
Redis ==> 集群的三种模式
一、主从同步/复制  通过持久化功能,Redis保证了即使在服务器重启的情况下也不会丢失(或少量丢失)数据,因为持久化会把内存中数据保存到硬盘上,重启会从硬盘上加载数据。但是由于数据是存储在一台服务器上的,如果这台服务器出现硬盘故障等问题,也会导致数据丢失。  为了避免单点故障,通常的做法是将数据库复制多个副本以部署在不同的服务器上,这样即使有一台服务器出
Peter20 Peter20
4年前
Redis集群的三种模式
一、主从模式通过持久化功能,Redis保证了即使在服务器重启的情况下也不会损失(或少量损失)数据,因为持久化会把内存中数据保存到硬盘上,重启会从硬盘上加载数据。但是由于数据是存储在一台服务器上的,如果这台服务器出现硬盘故障等问题,也会导致数据丢失。为了避免单点故障,通常的做法是将数据库复制多个副本以部署在不同的服务器上,这样即使有一台服务器出现故障,其他
Stella981 Stella981
4年前
Raid5和Raid6读写速度一点实例对比(非严谨)
以前一直纠结,存储文件系统底层究竟用raid5做到读写和安全的兼顾,还是选择raid6以安全为主导牺牲性能呢?今日就给大家一点参考!数据源主机A型号:群晖1817,硬盘8个硬盘类型:sata10T存储冗余类型:raid5数据同步主机B型号:群晖18015,硬盘12个硬盘类型:sas16T存储冗余类型:raid6同步软件
Stella981 Stella981
4年前
Linux磁盘、Ext文件系统、目录树
硬盘组成与读写硬盘,拆过机的同志应该知道就是一块小刚体嘛。拆过主机硬盘和笔记本硬盘也应该知道不同的硬盘的接口是不一样的,主机的硬盘一般会有一条线连接到主板而笔记本的硬盘直接有插槽。这个概念只是为了引起硬盘有不同的种类存在,当我们在linux系统中输出命令fdiskl的时候,大致会有设备名称等信息。其中有可能有/dev
Wesley13 Wesley13
4年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
4年前
linux查找文件命令find
 每一种操作系统都是由成千上万个不同种类的文件所组成的。其中有系统本身自带的文件,用户自己的文件,还有共享文件等等。我们有时候经常忘记某份文件放在硬盘中的哪个地方。在微软的WINDOWS操作系统中要查找一份文件是相当简单的事情,只要在桌面上点击“开始”-“搜索”中就能按照各种方式在本地硬盘上,局域网络,甚至在INTERNET上查找各种文件,文档。
Stella981 Stella981
4年前
Linux 磁盘管理之磁盘理论篇
Linux磁盘管理之磁盘理论篇磁盘简介作用:用来存放数据(二进制方式来管理数据)分类机械硬盘固态硬盘机械硬盘组成盘片:上面布满磁性颗粒,保存写入数据主轴:带动盘片转动,转到磁头的下方
个推技术 | Hadoop3.0时代,怎么能不懂EC纠删码技术
根据云存储服务商Backblaze发布的2021年硬盘“质量报告”,现有存储硬件设备的可靠性无法完全保证,我们需要在软件层面通过一些机制来实现可靠存储。一个分布式软件的常用设计原则就是面向失效的设计。作为当前广泛流行的分布式文件系统,HDFS需要解决的一个重要问题就是数据的可靠性问题。3.0以前版本的Hadoop在HDFS上只能采用多副本冗余的方式做数据备份
芝士年糕 芝士年糕
3年前
Linux查看硬盘(fdisk | lsblk)
摘要本文将讨论如何在Linux中查看硬盘和硬盘分区。引言首先,我们需要弄清楚Linux中硬盘和硬盘分区的命名规则。硬盘命名规则由于Linux中所有的设备都是以文件的形式出现,因此硬盘也不例外,也是用一个文件来表示。硬盘设备文件名格式一般为/dev/xxy。前两个字母xx标明硬盘类型:sd:表示这个硬盘是采用SCSISATA或USB