Какво представлява моделът и защо ни е необходим DHd-Blog

Относно интердисциплинарните недоразумения при DHd 2020

Моделите са математически формули, които мога да използвам за тестване на връзките в данните си. С тази проста концепция за модел израснах като количествен социален учен, без много противоречия. До тазгодишната DHd 2020, седмата годишна конференция на Асоциацията за цифрови хуманитарни науки в немскоговорящите страни.

Конференцията започва с двудневни практически сесии, по време на които присъствам на семинара „Пристрастия в набори от данни и модели за машинно обучение“. Тестваме нулеви хипотези със статистически модели и алтернативни хипотези с помощта на симулации в изчислителни модели. Моделите са математически формализирани и следователно се вписват идеално в моята собствена концепция за модел. Оставам в зоната си на комфорт.

По време на почивката се свързвам с участници в други работилници. Изведнъж изречения като: „Ние моделираме данните си с TEI.“, Или „Нашият модел е база данни neo4j“.
„Стандартите за анотации и базите данни не са модели“, мисля си, „Къде са изчисленията?“. И най-вече: „Къде са изследователските въпроси, въз основа на които извършваме определени изчисления и оставяме други зад себе си?“ Малко съм объркан.

Във вторник вечерта седя в Heinz Nixdorf MuseumsForum и слушам основната лекция на Julia Flanders за създаването на модели в Digital Humanities (DHs). И изведнъж стотинката пада. Възможно ли е да говорим един след друг? Че дефинираме „модел“ по различен начин? За мен един модел е математически модел. За Джулия Фландърс и много други членове на DHd обаче това изглежда е модел на данни. Това означава стандарти за предварителна обработка на данни (напр. Анотация) и представяне (база данни).

Въпреки че недоразумението ми е разрешено, много от лекциите през следващите дни ме карат да се замисля. Имам впечатлението, че много време и ресурси са отделени за създаването на модели, но че отговорите на изследователски въпроси относно съдържанието отстъпват. Именно тези контекстуални контексти се интересуват от нас като учени. Как се отнасят литературните фигури помежду си? Какво общо има едното историческо събитие с другото? Защо театралните представления се променят с времето? Защо композиторът използва единия, а не другия мотив в тази пиеса?
Нашите данни и математически модели са само инструменти за отговор на изследователски въпроси, свързани със съдържанието. Следователно на нашите изследователски въпроси трябва да се обърне по-голямо внимание при разработването на модели.

Бих искал да подчертая три точки, които привлякоха вниманието ми относно работата с модели на DHd 2020.
(1) Защо понятието модел е толкова рядко диференцирано? Само аз ли съм объркан от различните дефиниции на модела или е за други?
(2) Защо изграждаме огромни модели данни, които отнемат много време за завършване? Следователно трябва да изчакаме дълго време, преди да можем най-накрая да отговорим на нашите изследователски въпроси.
(3) Защо изграждаме огромни модели данни с твърдението, че са универсално използваеми? Не знаем дали наистина са необходими големи усилия, за да се отговори на нашите изследователски въпроси.

И така, какво трябва да се направи? Ето моят малък субективен, временен списък с желания.
(1) Трябва да сме конкретни, когато използваме термина модел и да кажем точно какъв тип модел се има предвид. Това улеснява комуникацията в интердисциплинарна област като DH.
(2) Трябва да изградим малки модели данни, специфични за приложението, преди да започнем с огромни, универсални модели данни. Първоначалните изследователски въпроси могат да бъдат адресирани незабавно с намалена версия на модела на данни.
(3) Трябва да разработваме данни и математически модели постепенно и итеративно, вместо да ги изграждаме наведнъж (принцип на водопада). След всяка итерация моделът може да се използва за отговор на конкретен изследователски въпрос. В зависимост от това колко добре работи това, моделът непрекъснато се адаптира. По този начин предотвратяваме огромен, трудоемко създаден модел да бъде безполезен за отговор на изследователски въпрос.

Заключение:
Първо, DH са интердисциплинарно поле, в което циркулират различни термини на модела. Следователно трябва да правим разлика между данните и математическите модели.
Второ, ние сме учени, защото се интересуваме от контекстуални проблеми. Ако фокусът ни беше върху създаването на модели на данни, щяхме да станем разработчици на софтуер или мениджъри на бази данни. Моделирането не е самоцел; то трябва да бъде средство за отговор на изследователски въпроси.

Стипендианти за пътуване DHd 2020 - общ преглед и вноски | Блог на DHd 12 март 2020 г.

[…] Ramona Roller (ETH Zurich) - @ramona_rollerКакво е модел и защо имаме нужда от него? В: DHd блог, 12 март 2020 г., https://dhd-blog.org/?p=13186. [...]

Фредерике Нойбер 12 март 2020 г.

Благодаря ви за тази красива статия на тема "модели", към която веднага прескачам.

Според мен моделите на данни не се ограничават до средства за предварителна обработка на данни. Създаването на модел може да помогне в (интердисциплинарни) работни групи да създадат общо разбиране за сложните области. Разбирам самото моделиране като евристичен процес, при който съществуващите знания за даден обект (напр. Текст или картина) се разширяват, поставят под въпрос и се изострят. В това отношение виждам * моделирането като част от изследването *, при което знанията за даден обект се обогатяват и се развиват теории. В допълнение, моделите са в основата на данните, които в крайна сметка могат да бъдат оценени, като резултатите от оценка (наред с други неща) произтичат от перспективата на предишното моделиране.

По-конкретно, моята гледна точка относно вашите точки/желания по отношение на моделирането:

(1) Да, трябва да сме конкретни какъв модел имаме предвид. Едно общо разбиране може напр. възникват чрез концептуален модел на "моделен термин". Да, това е много мета сега . но защо не?!

(2) Моделите на данните не трябва да служат сами за себе си, а трябва да преследват конкретна цел и да конкретизират това конкретно. В света на дигиталните ресурси моделите на данни също трябва да бъдат свързани и многократно използвани, поради което използването на стандарти и изискването за обобщаване имат смисъл. Ако всеки мисли само за себе си, когато моделира, нашата работа е в дългосрочен план - да го кажем небрежно - за котката. Пример: Благодарение на развитието на огромния TEI модел, кодираните текстове от различни проекти вече могат да бъдат обобщавани или обменяни с относително малко усилия. Много текстови корпуси, които днес извършват оценките, за които копнеете, са съставени от по-малки корпуси (същото се отнася и по мое мнение за бази данни с изображения и т.н.) Само си представете, че всеки би използвал свой собствен формат/речник тук - как искате да направите това някога да се доближите до големи данни и да зададете наистина вълнуващи въпроси? Според мен TEI е Между другото, също добър пример за факта, че знанията за текстовете са направени по-точни и изрични (аз винаги казвам, че истинската стойност на TEI са мислите за текста и определенията, по-малко кодиращият речник).

(3) Итерацията има смисъл и аз също мисля, че големите модели данни трябва да се създават отдолу нагоре, а не отгоре надолу.

Лично аз открих, че аспектът на „моделирането“ е недостатъчно представен на конференцията на DHd тази година. Това може да се дължи на факта, че сега разполагаме с критична маса данни и инструменти, достъпни за изследване, а създаването на данните отстъпва. Независимо от това, аз виждам аспекта на моделирането като важна част от DH и като критичен процес, който изисква наука (. които софтуерни инженери за изследване или мениджъри на бази данни също могат да имат). Особено в проекти, в които хуманитарни и компютърни учени работят заедно, често е необходим DH специалист със знания за моделиране, за да предаде домейна и изследователския въпрос по най-добрия възможен начин и да го формализира в правилния формат или речник. Почти всички компании в областта на цифровите хуманитарни науки, включително оценяването на големи количества текст, за да отговорят на изследователски въпроси, стоят или падат с качеството на базата данни, което от своя страна е резултат от нейното моделиране. Затова често пропусках критичен поглед към базата данни в много лекции за оценка на текст.

Tessa Gengnagel 12 март 2020 г.

Благодаря за този доклад за опит! Поради ограничения във времето, имам само няколко кратки коментара по този въпрос (всъщност трябва да разберете тук няколко изречения и да изчистите няколко недоразумения):

1. Както подсказва името, дигиталните хуманитарни науки се фокусират върху хуманитарните и културните изследвания. Вече има огромна пропаст в социалните науки. Казвам, че без никаква преценка, просто е така. Неразбирането не е заровено само в самите дигитални хуманитарни науки, но в различните специализирани култури, т.е.в някои много фундаментални методологични и епистемологични, ако не изцяло теоретични, фундаментални дебати. Нито можете да прехвърлите това към цифровите хуманитарни науки, нито да ги разрешите в тях.

2. Дискусията по темата „модел“ и „моделиране“ в частност е стар хоби кон в DH, дори и да не е имало съществен принос на теоретично ниво от Willard McCarty 2005. Терминът често не се използва по нюансиран начин, това е вярно и това е проблем. Но Нелсън Гудман вече отбелязва в своята работа „Езици на изкуството“ (1968/1976): „Малко термини се използват в популярния и научен дискурс по-обещаващо, отколкото модел“. Моделът е нещо, на което трябва да се възхищаваме или подражаваме, модел, конкретен случай, тип, прототип, образец, макет, математическо описание - почти всичко от гола блондинка до квадратно уравнение - и може да носи към това, което моделира почти всяка връзка на символизиране. ”- Значи това също не е специфично за DH явление или проблем. Тази липса на дефиниция е по-пандемична при много субекти и е само частично по-забележима при DH, защото или ако има обща техническа основа между събеседниците, т.е. Липсва мисълта за основните предмети и също така няма общо закрепване в DH език и методология.

3. Да се каже, че от една страна има математически модели, а от друга страна има модели на данни, е твърде кратко и не описва нито научно и общовалидно разбиране, от една страна, нито разбиране за ДХ, което трябва да се разграничава от него, от друга. За съжаление сега не мога да навлизам в това по-подробно, но считам за ценно, че тази публикация в блога за пореден път подчертава проблем в научната комуникация и DH очевидно са виновни за това.