Закон за данните как да разделите данните на законност

От Томас Сен-Обен, главен изпълнителен директор Seraphin.legal и Чарлз Леконте, учен по юридически данни и съосновател на CaseIP

закон

Пълна версия на статията, публикувана в Archimag n ° 323 в Отворен достъп на HAL-Сорбона

Ако данните са един от основните нематериални активи на компаниите, законността на автоматизирания процес на събиране е съществена предпоставка, за да може впоследствие да се подобри това информационно наследство.

Ноу-хау за събиране, съхраняване, анализ, обработка, обогатяване и визуализиране на данни е особено търсено, за да остане конкурентоспособно. Но какво да кажем за законността на данните? Това е появата на учен по правни данни.

Преди да можете да използвате данните, трябва да ги съберете. Има различни начини за събиране на данни:

  • или ръчно, което може да отнеме значително време, когато се търси да има голям обем;
  • или чрез автоматични методи, чрез софтуер или скрепер, което прави възможно получаването на голямо количество информация за рекорден период от време.

Все повече компании използват уеб изстъргване за извличане на съдържанието на сайта, за да обогатят собствената си база данни или да генерират нов бизнес.
Въпросът за законността на тази дейност често се решава със закъснение, по-специално от инвеститорите като част от надлежната грижа или когато процесът на спазване на GDPR е започнат.

Но как законът квалифицира и контролира събирането на данни, особено когато се управлява от роботи? Какви предпазни мерки трябва да се вземат, за да се превърне този цифров актив в ценен актив? Какво е състоянието на техниката, за да сформирате скрепер робот адвокат ?

Какво е остъргване ?

„Изстъргване“ е английски термин, означаващ буквално „изстъргване“. Приложен към мрежата, терминът, известен също като изстъргване на уеб, изстъргване на екрана, извличане на уеб данни, събиране на данни или извличане на уеб данни, се отнася до автоматизирана техника за извличане на структурирано съдържание. Конкретно, възстановяването на данните се извършва от програма, скрипт, който ще разглежда уебсайт и ще извлича данните и ще ги съхранява, за да ги използва повторно на собствения си сайт.

Това е техника, която не бива да се бърка с обхождането на мрежата, която се състои за софтуер за сканиране на интернет, автоматично навигиране от сайт на сайт за събиране на данни с цел индексиране, като по този начин улеснява търсенето на съдържание, като в Google например. Целта на тази техника е индексиране, за разлика от изстъргването, чиято цел ще бъде чисто и просто възстановяване, за да предложи същото съдържание на своята платформа.

Изрязване на публични данни от частни субекти срещу предоставяне на API услуга за публични референтни данни

Наборът от данни LEGI, въведен в Open Data от DILA на 1 юли 2014 г. на data.gouv.fr под отворения лиценз

Изстъргването също се различава от използването на интерфейс за приложно програмиране (API), позволяващ на сайта източник да контролира прехвърлянето на данни към трети потребители, като предоставя безплатен или платен достъп.

Най-често срещаният метод за законно изчистване на данни е идентифицирането и извличането на публични данни, разпространявани под безплатен и отворен лиценз. Под метаданните на игрите, отворени на data.gouv.fr, се появява лицензът, свързан с данните за многократна употреба. Във Франция това задължително ще бъде един от лицензите, изброени в Указ № 2017-638 от 27 април 2017 г., отнасящ се до лицензи за безплатно повторно използване на публична информация.

Но по време на дебатите относно създаването на обществена услуга за данни, залегнала в Указ № 2017-331 от 14 март 2017 г. относно публичната услуга за предоставяне на референтни данни, някои практикуващи подкрепиха създаването на обществена услуга за предоставяне на API за референтни данни, по-специално за легалните публични бази данни на Légifrance.

Резултатът от дебата? Не само публичноправните данни не се появяват в списъка с деветте референтни бази данни но предоставянето на API не е наложено като задължително следствие за тези основни данни за достъп до закона.

Следователно за възстановяване и използване на отворени данни зависи от всеки от заинтересованите участници да финансира и прилага практики за изчистване на публични данни, вместо да има тази първоначална и споделена инвестиция въз основа на основните производители на публични данни.

Следователно в случай на изстъргване на законни публични данни ще е необходимо да се извлекат данните от FTP сървърите на DILA и събира информацията, свързана със свързания лиценз, в метаданните на страницата data.gouv.fr, така че роботът скрепер да удостоверява законността на събирането на този източник.

В международен план трябва да споменем инициативата W3C, която се стреми да дефинира стандарти за достъп до данни, особено публични данни. По този начин стандартът Prov-O позволява например да се стартира SPARQL заявка в мрежата от данни, така че роботът да събира например само държавни източници със свързан лиценз.

Изстъргване на частни субекти срещу събиране на правни метаданни, свързани с набор от данни

Остъргването преживява възраждане на интереса от 2010 г. насам с появата на дейности за хакване на растеж. По този начин той може да се използва за подаване на инструменти за мониторинг и анализ или за съставяне на файлове, посветени на търсене на клиенти, чрез изстъргване на Linkedin или друг сайт, предлагащ например директория.

Изграждането на база данни с перспективи и незаконно изрязване от социалните мрежи е често срещана практика сред хакерите за растеж, която също се преподава редовно в училищата за уеб маркетинг и се обсъжда във форуми ...

Как законно да се регулира повторното използване на лични данни? В съответствие с GDPR или защитата на бизнес тайните са в ход няколко процедури.