Тъмни данни защо вашите стари снимки унищожават околната среда
След тъмната мрежа, ето и тъмните данни. Неизползвани корпоративни данни, които вие, във вашия мащаб, може би сте забравили и които остават съхранени в облака. Макар и неизползвани, те въпреки това оказват силно въздействие върху околната среда.

Ах, всички тези снимки от пътуването ви до Индия през 2014 г., колко са красиви. И онези видеоклипове от романтичния ви уикенд в Амстердам, същата година: какви красиви спомени ... Но наистина ли сте ги гледали, преглеждали, слушали след завръщането си от пътуването си преди 6 години? От кога вашите файлове се пълнят с мултимедийни файлове, седнали на „работния плот“ на вашия (виртуален) компютър, без да сте се консултирали с тях ?
Мислехте, че тези файлове са безобидни, тъй като са на твърдия ви диск. Ти беше права. Мислехте същото, когато, за да ги запазите някъде „за всеки случай“, ги изпратихте в iCloud или Google Drive. За съжаление сгрешихте.
Забравени данни
Вероятно вече знаете: цифровите технологии замърсяват и по-специално AI. Например, обучението на модел за дълбоко обучение за обработка на естествен език излъчва толкова, колкото човек за 57 години, или като 5 автомобила през живота си.
Използването на значителна маса данни (известните големи данни) изисква по-специално използването на хиляди компютърни центрове и сървърни ферми, центровете за данни, които работят с пълна скорост и които генерират 2 до 5% глобални емисии на парникови газове, според проучване на Университета в Масачузетс от миналото лято. Но трябва да знаете, че всички тези данни, които замърсяват косвено, дори не се използват всички.
През 2015 г. Gartner вече говореше за тези известни „тъмни данни“ или тъмни данни. Вид информационна „тъмна материя“, която компаниите „събират, обработват и съхраняват в хода на ежедневните си бизнес дейности, но които обикновено не използват за никакви други цели, нито за извличане на информация, нито за вземане на решения ". Според фирмата организациите „често съхраняват тези данни само за целите на спазването и съхраняването им, както и осигуряването им, обикновено включва повече разходи (а понякога и повече риск), отколкото стойност“.
Много често, ако не се използват тъмни данни, често това е така, защото компанията не разполага с инструментите за анализ на тези данни, които е събрала масово и които са неструктурирани (във формати, които са трудни за класифициране и четене). Понякога тя дори не е наясно, че тези данни се събират. Според IBM тъмните данни идват и от сензори и свързани обекти; те представляват 90% от данните на тези устройства и никога не се използват. Освен това Big Blue изчислява, че по-голямата част от организациите анализират само 1% от данните си, които често се „съхраняват с цел спазване на нормативните изисквания или в регистър“.
Излишни данни
Някои от тях вярват, че тези тъмни данни могат да им бъдат полезни в бъдеще, особено „когато придобият по-добри анализи и технологии за бизнес разузнаване за обработка на информация. В същото време, обяснява Gartner, „тъй като евтино е да се съхраняват тези данни в облака, за тези компании е лесно да ги прекалят“.
През 2014 г., според проучване на Асоциацията за управление на информацията и изображенията (AIIM), 60% от компаниите смятат, че техният „капацитет за отчитане на бизнес разузнаването е недостатъчен“, за да анализират тези мрачни данни. Ситуацията изглежда се е променила малко 6 години по-късно. Според скорошен доклад на Veritas Technologies, американски стартъп, специализиран в „управление на данни в много облаци“, 52% от цялата информация, съхранявана от компаниите в центровете за данни, е неясна. Данни, чиято стойност е неизвестна, защото „все още не е дефинирана“, или защото е просто ненужна. Отбележете по този въпрос, че според IBM 60% от тъмните данни губят стойността си много бързо, защото са нетрайни.
6,4 милиона тона въглероден диоксид
По принцип всичко това би било несъществено, ако тези тъмни данни нямаха значителен отпечатък върху енергията и околната среда. Тъй като всички тези данни, съхранявани в центрове за данни (повечето от които са изключително енергоемки и все още са многобройни, за да работят благодарение на електричество, произведено от въглища или атомни електроцентрали), наистина мобилизират значителни енергийни ресурси за последващо въздействие върху околната среда. Около 6,4 милиона тона въглероден диоксид ще бъдат излишно изпуснати в атмосферата през 2020 г. поради тези неизползвани или забравени данни, според проучването на Veritas.
Дори ако това означава да правите цветни сравнения (но малко мъгляви?), Veritas Technologies посочва, че това е еквивалент на годишното отхвърляне на 80 държави или че се равнява на пътуване около света с кола 575 000 пъти (докато замърсява въздуха в своя път). Но не бива да свършва дотук. В действителност, вземайки оценки от фирмата IDC, тя обяснява, че Интернет на нещата (IoT) скоро ще доведе до „огромно увеличение“ в производството на данни „по целия свят“, намалявайки ги от 33 зетабайта (ZB) до 2018 г. до 175 ZB през 2025 г., или 175 милиарда терабайта. В тази gloubi-boulga, тъмните данни трябва да представляват 91 ZB или 4 пъти общото количество на текущите данни. „Ще бъде необходима площ от 7 500 000 декара гора, 500 пъти по-голяма от Манхатън, за да поеме целия произведен въглероден диоксид“, отбелязва Veritas.
Какво да мислим за тези цифри? В проект за смяна, мозъчен тръст, посветен на енергийния преход в Европа, Хюг Феребойф, директор на проекта „трезвеност“, разсъждава върху практики, които позволяват да се ограничи въздействието на дигиталните технологии върху околната среда. Според изследователя тъмните данни всъщност не замърсяват толкова много ... все още. „Съхранението на данни (като цяло) консумира 30% от консумацията на енергия на центровете за данни; които сами консумират 400 тераватчаса (TWh), за да работят. Следователно това означава, че данните консумират 130 TWh. Ако 50% от тях са безполезни, тогава имаме 60 Twh консумирани за нищо или около 30 милиона тона CO2 емисии всяка година ", изчислява той. „Разбира се, това е десет пъти по-малко от използването на стрийминг (около 300 милиона тона CO2, консумирани годишно), но трябва да се помни, че обемът на данните, съхранявани в облака, расте дори по-бързо от трафика в мрежите“, добавя инженерът.