Познайте нашите! За речника на Дал и съвременния руски език

Здравейте! С вас Анна Шустикова и заглавието за руската наука "Знай нашите".

Вероятно всеки от вас поне веднъж е чувал за Обяснителния речник на В.И. Дал. Това е удивително произведение, което съдържа образци на истински жив, народен език от средата на 19 век - само около 200 хиляди. Въпреки това, времето минава, езикът се променя и думите, които преди са се чували в ежедневната реч, излизат от употреба. Но доколко един съвременен език се различава от този, който се е говорил преди 150 години? За да отговори на този въпрос, Yandex реши да се свърже с нашите заявки за търсене.

Yandex обработва около 70 милиарда заявки годишно. Ако всяка заявка е разделена на думи, изберете между тях само тези, които са съставени от кирилични знаци, и ги доведете до първоначалната словоформа - например за съществителните това е номинативният падеж - тогава получаваме 285 милиона думи. Разбира се, не всички от тях са истински: сред тях има и грешно написани думи - само думата „съученици“ се въвежда в лентата за търсене по повече от хиляда начина - освен това има думи, набрани в грешно оформление и просто безсмислени буквени комбинации. За да се премахнат всички тези грешки и инциденти, преди да се пристъпи към анализа, думите от запитванията бяха сравнени с пробите от Националния корпус на руския език за XX, XXI век. Това е такава колекция от текстове на руски език в електронна форма, където примери за различни видове и стилове са представени в същото съотношение, в което се срещат в реалния живот. Това е, например, ако сред всички текстове на руски език новините представляват една трета, то в Националния корпус трябва да има същия брой.

И така, оказа се, че в заявките за търсене и в Националния корпус има около 750 хиляди думи. Сега можем да преминем към сравнението с речника на Дал. Той показа, че 44% от думите от речника могат да бъдат намерени както сред заявките, така и в Националния корпус, 38% се намират в заявки, но в корпуса няма такива думи, а 18% никога не са били споменати в заявките. И, изглежда, можем веднага да направим заключение: това означава, че някъде една пета от думите не се използват, малко по-малко от половината все още се използват активно, а всички останали - т.е. 38% процента, че не са в текстовете, но все пак се срещат при заявки - това са изходящи думи. Не всички обаче са толкова прости.