Намаляване на данните чрез дедупликация и компресия - IONOS

Според международния изследователски институт IDC, количеството глобални данни се удвоява приблизително на всеки две години. От 2020 г. това цифрова вселена трябва да има общ обем от 44 зетабайта. Това е производство или копие на 44 трилиона гигабайта данни за една година. Това развитие има последици по-специално върху техниките за съхранение, процедурите за връщане на връщане и системите за възстановяване на данни. Те трябва да могат да носят огромното тегло на данните, както и да ги използват. Предлагат се методи за концепциите за техническо изпълнение. Те позволяват намаляване на физическата информация, както и разходите за задържане на данни. Тези методи разчитат предимно на два подхода: компресиране на данни и дедупликация. Докато компресирането на данни без загуби използва излишък в рамките на файл, алгоритмите за дедупликация обикновено коригират файловите данни, за да се избегне дублиране. Следователно архивирането на данни е основната област на технологията за дедупликация.

Дедупликация

Техниката на дедупликация се отнася до процес на намаляване на данните, който позволява избягвайте излишък на данни върху пространството за съхранение на система. Машина за дедупликация се използва за елиминиране на излишни файлове или блокове с данни благодарение на специални алгоритми.

Целта на дедупликацията като техника за съхранение е да се запише толкова информация, колкото е необходимо, на енергонезависим носител, за да се възстанови файл без загуби. Колкото повече дубликати се отстраняват, толкова по-малко е количеството данни, които трябва да се съхраняват и предават. Например дублиране на идентификация може да се извърши в Git или Dropbox на ниво файл, но алгоритмите, които работят на ниво подфайл, са все още по-ефективни. По този начин файловете се демонтират в блокове с данни, които са снабдени с контролни суми или хешове. A база данни за проследяване служи като централен контролен орган и съдържа всички тези контролни суми.

Методът за дедупликация за изграждане на блокове има две вариации:

Дедупликация с дълги твърди блокове: алгоритъмът подразделя файловете на фрагменти с абсолютно същата дължина. Това обикновено е насочено към размера на файловата група (клъстер) или RAID системата (обикновено 4 KB), но може да бъде конфигурирано и ръчно. Дължината на блоковете се адаптира индивидуално в този случай и се определя като стандарт за всички блокове.

Дедупликация с блокове с променлива дължина: тук не е дефинирана стандартна дължина. Вместо това алгоритъмът разделя данните на различни блокове, които се различават по дължина в зависимост от типа.

Типът изпращане има все по-важно влияние върху ефективността на дедупликацията. Това е особено важно, когато прехвърлените данни се променят по-късно. Ако разширим a солиден блок данни с допълнителна информация, съдържанието на всички следващи блокове обикновено се движи пропорционално на предварително зададените граници на блока. Въпреки че промяната засяга само блок данни, алгоритъмът за дедупликация също класифицира отново всички следващи сегменти на файл поради изместване на границите на блока. Възможно е също така модифицираните байтове да имат точно същото кратно на фиксираната дължина на блока. Тъй като блоковете, маркирани като нови, се записват отново, копие по време на дедупликация на блокове с данни с фиксирана дължина увеличава изчислителната памет, както и натоварването на честотната лента.

Ако алгоритъм използва вместо това граници на променливи блокове, промените в един блок не засягат съседни сегменти. Вместо това се променя и записва само модифицираният блок с данни. Това облекчава напрежението в мрежата, тъй като по време на архивиране се предават по-малко данни. Тази гъвкавост на модификациите на данните обаче е скъпа по отношение на ресурсите на процесора, тъй като алгоритъмът първо трябва да открие как се разпределят различните части от данните.

Идентифицирането на излишни порции се основава на предположението, че блоковете данни съдържат идентична хеш информация. За да филтрира излишните части, алгоритъмът за дедупликация трябва само да препредава хешовете и да ги сравнява с базата данни за проследяване. Ако има идентични контролни суми, излишните части се заменят с указател, който сочи към същото пространство за съхранение като блока за данни. Такъв указател сам по себе си изисква значително по-малко пространство в сравнение с блок данни. Колкото повече данните се заменят с такива указатели, толкова по-малко място за съхранение отнема. Не можем обаче да прогнозираме ефективността на намаляването на данните чрез алгоритми за дедупликация, защото те силно зависят от изходящия файл и неговата структура на данните. Освен това дедупликацията е подходяща само за некодирани данни. Излишно се избягват съкращения в системите за криптиране, което прави разпознаването на образци невъзможно.

Дедупликацията се извършва или на целевото място за съхранение, или на източника.

Дедупликация на източника

Ако излишните данни вече са премахнати преди предаването в целевото пространство за съхранение, това се нарича дедупликация на източника. В този случай машината за дедупликация е например интегрирана в програма за архивиране. Излишната информация се отстранява директно от системата за данни на източника на данни. За целта програмата за архивиране редовно сканира новосъздадените блокове с данни и ги сравнява с вече съществуващите резервни копия на сървъра. Ако намери излишен блок от файлове, той ще го изключи от следващото архивиране. Ако даден файл е модифициран, програмата за архивиране предава само модификациите.