Цифрови ресурси j

„Корпус литературния

j. Началната страница на berenike herrmann

цифрови ресурси

Herrmann, J.B. & Лауер, Г. КОЛИМО. Корпус на литературния модернизъм (бета) („Корпус на литературния модернизъм“). (повече информация по-долу *)

Messerli, Th., Rothenhäusler, K., Rebora, S. & J.B. Херман. LoBo. Корпусът на LovelyBooks. Колекция от рецензии за дигитални книги (+1 милиона отзива).

Herrmann, J. B., Gabay, S. и S. Rebora. Многоезичен швейцарски роман 1850-1920, част от ELTeC (COST Action „Дистанционно четене за европейска литературна история“, CA16204).

Herrmann, J.B. (2016). EAK. Разказващо тяло. Корпус от начални раздели на литературна фантастика. Кодирано ръчно за метафора.

Steen, G.J., Dorst, A.G., Herrmann, J.B., Kaal, A.A. и T. Krennmayr (2010). VU Amsterdam Metaphor Corpus. Оксфордски текстови архиви.

блогове и уикита

Herrmann, J. B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Корпус на експресивно и междуличностно писане. (Експресивен и междуличностен писателски корпус).

Herrmann, J.B. (Ред.) (2012). Изчисляване на литература („Изчислителна литература“). Уики за цифров анализ на текст. („Уики за цифров анализ на текст“).

* колимо

В момента eXistdb-корпусът „KOLIMO“ се ремонтира за повторно стартиране. Построен е в университета в Гьотинген 2015-2017. Това, което следва по-долу, е архивираният „раздел за информация“ от предишния уебсайт на https://kolimo.uni-goettingen.de/about.html .

Съкращението KOLIMO

означава „Корпус на литературния модернизъм“. По-точно, KOLIMO е цифров сравнителен корпус на германския разказвателен литературен модернизъм. Направихме корпуса за собствен анализ на стилове, но тъй като сме убедени, че такъв ресурс трябва да бъде споделен с изследователската общност, съставянето на корпуса е извършено с оглед на публикацията. Но имайте предвид, че KOLIMO НЕ Е „инструмент на корпуса“. Уеб интерфейсът позволява на изследователите да изпълняват заявки, но не и да извършват правилен анализ. Подготвяме опция за изтегляне на уебсайт.

Защо "бета"?

„Бета“ означава, че все още не сме напълно там, но се чувстваме достатъчно уверени, за да споделим с вас това, което имаме.

Какво означава „цифров сравнителен повествователен корпус на немския литературен модернизъм“?

Ние създадохме KOLIMO като такъв по причина:

И така, KOLIMO е сравнителен разказен корпус. Поради тази причина се нуждаем от нещо повече от литература, повече от модернизъм, а само от повествователни текстове.

KOLIMO е за анализ на стилове

KOLIMO е гръбнакът на текущия корпусно-стилистичен проект Q-LIMO (Количествен и качествен анализ на литературния модернизъм). Като такъв той е предвиден да бъде в крайна сметка представителен корпус на модерната немска повествователна литература. Той също така е предназначен да бъде обогатен последователно с повече метаданни, както и с многопластови езикови и литературно-естетически анотации.

Нашата цел при създаването на KOLIMO е да дадем възможност за количествени и качествено-херменевтични стилови анализи за немски повествователни текстове от вълнуващия период в началото на 20-ти век - чрез такива променливи като жанр на разказа, автор и време. Например, ние се интересуваме от спецификата на стила на Франц Кафка - какви видове думи, фрази и естетически фигури са показателни за неговото писане? Можем ли да проследим някакви възможни влияния от нелитературни области на дискурса (като юридически дискурс), от други литературни писатели (като съвременния Робърт Валсер и, един век по-рано, Хайнрих фон Клайст), или дори неканонични литературни жанрове (като като приключенска литература)? Обърнете внимание, че KOLIMO съдържа KAREK, „референтен корпус на Кафка“. В нашия изследователски проект, където модернизмът е сърцето на KOLIMO, Кафка е сърцето на модернизма. Това не е ценностна преценка, а такава от изследователски интерес: За да кажем нещо за стила на Кафка, за сравнение се нуждаем от повече съвременни автори, а също и „по-стари“. KOLIMO е направен от съществуващи цифрови източници, но надхвърля.

KOLIMO е композитен ресурс

Черпихме основната част от текстовете си от дигитални ресурси, които са свободно достъпни. Може да кажете: ако са там, защо да се притеснявате? Е: Въпреки че има няколко съществуващи хранилища (напр. Хранилището TextGrid, немският текстов архив [DTA], Gutenberg-DE и Gutenberg.org), ние сме ги обединили, тъй като по този начин те са повече от сумата на техните части.

Преди KOLIMO, въпреки редица инициативи, липсваше дигитален корпус на германския повествователен литературен модернизъм. Със сигурност този, който се стреми да бъде представителен, който е предназначен за сравнителен анализ (виж по-горе) и който носи последователни и ръчно подобрени метаданни. Нещо повече, KOLIMO идва с първи набор от езикови анотации. Следователно KOLIMO е уникален ресурс. Щастливи сме да го направим публично достъпен. Първоначално метаданните произхождат от същите източници като текстовете, но работихме усилено за подобряването им, например добавяне и валидиране на GND към метадатума „автор“; попълване на празните места за „година на издаване“ - а имаше много - чрез груба, но практична процедура. KOLIMO се съхранява в XML база данни, eXist-db (приложение eXist-db за източници на KOLIMO: Запитване и редактиране на метаданни). Всеки документ разполага със стандартизиран заглавие TEI, който съдържа всички видове полезна информация за всеки отделен текст, включително метаданните, както и избрани маркери за стил.

Какви маркери за стил мога да намеря в KOLIMO?

KOLIMO позволява провеждането на количествени профили на езиковата употреба. Това означава по същество „преброяване на неща на езиковата повърхност“. Ние работим с основното предположение, че „стил“ може да бъде оценен чрез преброяване на честотата на онези текстови функции, които лесно се различават от компютъра: символи, срички, думи, изречения и т.н., комбинирайки се с мерки като дължина на думата, дължина на изречението, съотношения тип-лексема, списъци с най-чести думи и др. Изобилните стилометрични изследвания показват, че този пряк подход към стила е доста плодотворен. Разбира се, тук може да започне всеки по-усъвършенстван анализ, включително клъстер анализ на сходство на текст въз основа на най-честото преброяване на думи (напр. Делта) или мерки за ентропия на лексикални вариации. Всичко става, стига да имаме задръжка за дискретните антите, които съставляват текстовете (символи, низове и т.н.).

Като се има предвид това, ние също вярваме в стойността на езиковите (и други видове) анотации: KOLIMO е маркиран за част от речта (POS) и сме провели анализи на четливостта (Flesh-Index, Wiener Sachtextformel). Стойностите за четливост се съхраняват в заглавията на TEI, както и основна описателна статистика за броя на думите. Предстоят още видове анотации (например, работим върху метафора и сме експериментирали с анотация на реч/представяне на мисълта).

Ние вярваме в ползата от прецизността, например когато анотаторите си сътрудничат контролирано, тяхното съгласие е тествано чрез мерки за надеждност на интеркодера. За да погълнем нови анотации, от множество анотатори, ние избрахме независим XML формат за нашата база данни (eXist). Нещо повече, eXist позволява безпроблемно публикуване на данни в мрежата и мощни заявки (xQuery). Също така експериментирахме с приложения за анотиране на eXist.

Нашето изследване в дигитален стил е по същество отворен изследователски процес, с тестване на хипотези, подкрепено от нови и критични перспективи, произтичащи от анализа.

Информация за лиценза и приписването

KOLIMO е само за изследователски цели. Ние съставихме KOLIMO като набор от текстове на немски език, извличайки текстови и метаданни от ресурсите, посочени в заглавието на TEI (и по-долу). Коригирахме някои от съществуващите метаданни и добавихме нови метаданни за (някои) автори, (някои) дати на публикуване и жанр, както и статистика за стиловете. Хранилищата, от които сме извлекли данните си, съдържат текстове, чиито авторски права са изтекли.

KOLIMO се предлага под лиценз Creative Commons, в съответствие с лицензите на хранилищата на източника. Текстовете от TextGrid са достъпни под лиценз за приписване CC-BY (вижте цифровата библиотека на textgrid). Документите на Deutsches Textarchiv обаче се предоставят под лиценз CC BY-NC 3.0 (нетърговски, вж. Creative Commons), което означава, че използването на тези текстове за търговски цели е забранено (вж. Условията за използване dta). Документите на Gutenberg-DE се предоставят по начин, който разбираме като лиценз CC-BY-NC-SA (нетърговски, споделяне, вижте Creative Commons), което означава, че търговската употреба на тези текстове е забранена и ремиксиране, преобразуване, или надграждане върху материала само ако се използва същия лиценз като оригинала. Когато използвате корпуса, моля, уверете се, че цитирате източниците на текстовете, както се изисква от отделните изявления, и отдавайте признание на екипа на KOLIMO, изброен по-долу, за извършване на компилация на текст, анотиране и работа по метаданните.

Разделът „Gutenberg“ е извлечен от DVD-ROM на Gutenberg-DE Edition 13 (издаден през ноември 2013 г., виж gutenberg-DE) и е преобразуван от HTML в XML и TXT; разделът „Deutsches Textarchiv“ е извлечен от „Референтен корпус на новия високогермански език“ (вж. версия 8 юли 2015 г .; и раздел „TextGrid“ е извлечен от „Текстове Korpus версия II“ (вж. цифрова библиотека на textgrid).

Как да цитирам KOLIMO бета

Когато посочвате корпуса в научната комуникация, моля, цитирайте:

Повече информация за KOLIMO и неговия подкорпус, Kafka/справочен корпус (KAREK), можете да намерите тук: