Декември 2018 г. Изследователска тетрадка в Националната библиотека на Франция

Като част от проекта CORPUS, включен в четиригодишния изследователски план за 2016-2019 г. на Националната библиотека на Франция, семинарът, озаглавен „Penser, classer, modeliser. Примерът с проекта Foucault Fiches de Lecture "се състоя в следобедните часове на 13 ноември на сайта Франсоа-Митеран. Организирана в логика на споделяне на опит, целта му беше да води, използвайки конкретния пример за проекта Foucault Fiches de Lecture, размисъл върху въпроси, свързани с моделирането и обогатяването на данни и, по-общо, върху това, което цифровите инструменти могат да донесат в изследователската работа върху корпус от архиви.

Проектът Foucault Fiches de Lecture (FFL) е тригодишен проект за ANR, който има за цел да дигитализира, постави онлайн, индексира, описва и обогатява ръкописните бележки за четене на Мишел Фуко, използвайки платформа. Дигитална форма на съвместна работа.

Плодът на партньорството между PSL и ENS Lyon, проектът FFL, чрез обединяване на екипи от различни изследователски лаборатории (ArchiNum, Triangle, CAPHÉS и ITEM), се основава на тясно сътрудничество между изследователи в областта на човешките и социалните науки и изследователските инженери.

След стартирането на цифровизацията от BnF на четещите карти (колекция NAF 28740, придобита от отдела за ръкописи на BnF през 2013 г.), днес, в края на първата година от проекта, прототипна платформа, разработена от екипа от инженери, предлага изследва няколко функционалности и отваря нови перспективи за изследване. Първо, тя ви позволява да се запознаете с дигитализираните листове: в момента около 5700 от 14 000, които ще бъдат дигитализирани като част от проекта, и от 20 000 листа в колекцията, съхранявана в BnF. Той също така дава възможност на изследователите да описват и анотират тези файлове: всеки потребител може както да създава споделени метаданни, така и да записва частни анотации.

Прототип на платформата за четене на Foucault (FFL)

Въз основа на семантични уеб технологии, платформата също така дава възможност за обогатяване на тази информация чрез система за смесване и подравняване с библиографски и биографични данни от data.bnf.fr. Освен това тя предоставя препис на всеки запис. Тази автоматична транскрипция се получава с помощта на софтуера Transkribus, който, базиран на технология на изкуствен интелект, след фаза на обучение чрез невронни мрежи, позволява разпознаване на ръкопис, както и търсене по ключови думи. Въпреки необходимостта от внимателна работа ред по ред, екипът видя среден успех от разпознаване на почерк от 92%, когато се практикува. И накрая, изследователските инженери работят върху функционалност за картографиране, за да позволят на изследователите да визуализират графично връзките между файловете и от тези връзки да визуализират мрежите от понятия и автори. По този начин проектът цели да създаде база от знания върху източниците на Фуко, както и терминологично хранилище на лексиката, използвана от философа.

Примерна транскрипция

Преходът от хартиен към дигитален архив предполага нов начин за разбирането им за изследователите. Възможността за установяване на хипертекстови връзки между файловете и към външни ресурси, както и получаване на визуализации на данни представляват основни предимства на проекта, който по този начин има за цел да предложи на изследователите отворен работен модел, но също така и теоретично отражение върху методите на работа на Фуко и неговите архиви, неговата " библиотека".

Използвайте повторно съществуващите данни

Този корпус от карти за четене има хибриден статус: повече от текст, той представлява библиографска база данни. По своята същественост картите, натрупани за повече от тридесет години, са подредени в кутии и папки според тематичен ред. Систематично, на тези файлове, Фуко отбелязва концепции за препратки и атрибути. Във виртуалното измерение на платформата тези препратки към хора, документи и концепции са подравнени, доколкото е възможно, с data.bnf.fr или сочат към общия каталог на BnF или към други библиотечни каталози, когато препратката не е налична на data.bnf.fr. Към тези структурирани метаданни се добавят анотациите, изготвени от изследователите (например лични коментари или добавяне на препратки) и пълните транскрипции на файловете.

Как тогава да използваме най-добре тези различни видове данни (структурирани метаданни, анотации и транскрипции)? Може ли това обогатяване на данни чрез data.bnf.fr да бъде завършено със същата работа от транскрипциите на файловете, от пълния текст? ?

Индексите на Cours au Collège de France (теми и лица) са обединени в едно (индексът от 10 курса представлява 200 страници), но те описват само част от работата (1970-1984 г.) и са разкрити твърде специализирани около теми на курсовете; след това екипът се чуди за възможността за създаване на тезаурус от концепции или за използване на съществуващ тезаурус, за да опише понятията, използвани от Фуко, за да контролира създаването на нови обекти и да подобри качеството на текстовите данни.