Распределённая ФС (GFS/HDFS)
Уровень: Senior
Ответ
Хранилище файлов для big data: файл разбивается на большие чанки (64-128MB) и хранится на многих дата-нодах с репликацией (обычно 3 копии); центральный мастер (NameNode) держит метаданные – какие чанки составляют файл и где лежат, а data-ноды хранят сами блоки; при чтении/записи клиент обращается к NameNode за списком node, затем напрямую к ним; такая архитектура оптимизирована под последовательную запись и чтение огромных файлов (логов, видео) – позволяет параллельно читать разные чанки; HDFS (Hadoop) – open-source реализация GFS от Google, лег в основу экосистемы Hadoop/MapReduce; ограничение – не подходит для большого количества мелких файлов и для сценариев с частым изменением файлов.