Как пользоваться новым частотным словарем русской лексикиВведение к Новому частотному словарюКак пользоваться словаремО словаре Как найти слово в словаре? Почему я не могу найти слова в словаре, хотя я могу найти его в корпусе? Какую информацию об употреблении слова можно получить? Что такое ipm? Что такое коэффициент вариации D? Что можно узнать об истории употребления слова в разные периоды? Почему имена собственные и аббревиатуры выделены в отдельный список? Как получить информацию об употреблении отдельных форм слова? Как найти информацию о «самых употребительных» словах? Как проследить распределение частотности в текстах разных функциональных стилей? Что такое словарь значимой лексики (художественной литературы и т. д.)? Что означают показатели frq1, frq2 и LL-score в словаре значимой лексики? Как получить список 100 самых частотных глаголов? Как пользоваться «Вспомогательными таблицами»? О словареСловарь включает наиболее употребительные слова современного русского языка (2-я половина XX – начало XXI вв.), снабженные информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреблений. Подробнее об истории частотных словарей русского языка и методах создания «Нового частотного словаря русской лексики» словаря можно прочитать во Введении. Разработка концепции словаря и его подготовка к изданию осуществлена О.Н.Ляшевской и С.А.Шаровым, электронная версия подготовлена А. В. Санниковым. Авторы выражают благодарность В. А. Плунгяну, А. Я. Шайкевичу, Е. А. Гришиной, Б. П. Кобрицову, Е. В. Рахилиной, С. О. Савчук, Д. В. Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Мы благодарим О. Урюпину, Д. и Г. Бронниковых, Б. Кобрицова, а также сотрудников ООО «Яндекс» А. Аброскина, Н. Григорьева, А. Сокирко за помощь на разных этапах сбора и компьютерной обработки материала. Как найти слово в словаре?Два основных раздела словаря – список слов, упорядоченный по алфавиту и по общей частоте употребления в корпусе. Все слова приводятся в исходной (начальной) форме: для имен это форма именительного падежа (для имен существительных, как правило, форма единственного числа, для имен прилагательных – полная форма мужского рода), для глаголов – форма инфинитива. В алфавитном списке приведено 60 тысяч наиболее частотных словоформ. Чтобы найти информацию о нужном слове, перейдите в раздел Алфавитный список лемм, выберите первую букву слова и найдите искомое слово в таблице. Чтобы быстро найти слово, вы можете также воспользоваться окном поиска, например: Слово: вящий Таким способом можно найти информацию не только о каком-то конкретном слове, но и о группе слов, начинающихся или заканчивающихся одинаковым образом. Для этого в окне поиска используйте знак звездочки (*) после набранной последовательности букв («все слова, начинающиеся с…») или до цепочки букв («все слова, оканчивающиеся на…». Например, если вы хотите найти все слова, начинающиеся на пере-, наберите в окне поиска: Слово: пере* Если вы хотите найти все слова, оканчивающиеся на –енько, наберите в окне поиска: Слово: *нько В частотном списке лемм слова упорядочены по общей частоте употребления в корпусе современного русского литературного языка. Частотный список включает 20 000 наиболее употребительных лемм. Чтобы найти информацию о нужном слове, перейдите в раздел Частотный список лемм и найдите искомое слово в таблице. Для поиска информации об отдельных словах лучше всего воспользоваться окном быстрого поиска слова. Почему я не могу найти слова в словаре, хотя я могу найти его в корпусе?Это может объясняться несколькими причинами. Во-первых, слово может иметь низкую частотность (например, всего 3 употребления в корпусе) или употребляться только в текстах, написанных до 1950-го года. Во-вторых, слово может встретиться много раз, но в одном-двух текстах: такие леммы были сознательно исключены из словника словаря. В третьих, мы не можем исключить, что произошла ошибка автоматического определения исходной формы или частеречной характеристики слова, или же слово было ошибочно атрибуировано как имя собственное. На сайте представлена «тестовая» версия частотного словаря, и мы собираемся продолжать работу по уточнению его лексического состава. Какую информацию об употреблении слова можно получить?В словаре можно получить следующую информацию об употреблении слова в корпусе: В словарях значимой лексики можно также получить информацию о сравнительной частотности слова в общем корпусе и в подкорпусе текстов определенного функционального стиля (художественная литература, публицистика и т. д.) и показателе правдоподобия LL-score. Помимо количественных показателей, при слове указывается часть речи. Это делается для того, чтобы развести слова разных частей речи, которые имеют одинаковую исходную форму (ср. печь – имя существительное и глагол). Что такое ipm?Общая частота характеризует число употреблений на миллион слов корпуса, или ipm (instances per million words). Это общепринятая в мировой практике единица измерения частотности, которая упрощает сравнение частоты слова в разных частотных словарях и в разных корпусах. Дело в том, что выборки текстов, на которых измеряется частотность, могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40598 раз в 100-миллионном корпусе современного русского языка и 55673 раза в большом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 405.98 и 412.39, соответственно. Частотные словари под ред. Л.Н. Засориной и Л.Леннгрена были построены на выборке размером в один миллион словоупотреблений, соответственно, можно считать, что фигурирующие там абсолютные показатели также приводятся в ipm. Что такое коэффициент вариации D?Коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), используется во многих частотных словарях (русском словаре Л. Леннгрена, словаре Британского национального корпуса, словаря французской лексики в области бизнеса). Этот коэффициент позволяет увидеть, насколько равномерно распределено слово в разных текстах. Значение коэффициента определяется в интервале от 0 до 100. Например, слово и встречается практически во всех текстах корпуса, и значение D у него близко к 100. Слово комиссуротомия встречается в корпусе 5 раз, но только в одном тексте; у него значение D около 0. Указание коэффициента D для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных областей. Например, слова перезрелый и имплант имеют примерно равную частоту (0,56 ipm), но при этом коэффициент D у перезрелый равен 90, а у имплант – 0. Это означает, что первое слово равномерно встречается в текстах разного направления и значимо для большого числа предметных областей, в то время как слово имплант присутствует лишь в нескольких текстах тематики «медицина и здоровье». Что можно узнать об истории употребления слова в разные периоды?Информацию о распределении частотности слова в разные десятилетия 2-ой половины XX века и в начале XXI века можно получить в Частотном списке лемм. Например, можно видеть, как складывалась судьба слова перестройка: 1950-е: 7,51 1960-е: 3,89 1970-е: 8,42 1980-е: 48,50 1990-е: 23,17 2000-е: 31,29 Резкий всплеск его употребления в 1980-е годы вполне объясним социально-историческими реалиями того времени; вместе с тем, с лингвистической точки зрения этот факт можно трактовать таким образом: слово перестройка обогатилось новым значением, которое стало доминирующим в последующие годы. Почему имена собственные и аббревиатуры выделены в отдельный список?Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и от их темы (в частности, от места и времени описываемых событий). В Леннгрен 1993 высказано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию. В словарь включена ядерная часть этого списка, насчитывающая 3 000 наиболее частотных единиц. Для поиска данных об употреблении имен, отчеств, фамилий, прозвищ, кличек, топонимов, названий организаций и аббревиатур перейдите в раздел Алфавитный список собственных имен и аббревиатур, выберите букву, с которой начинается искомое слово и найдите его в таблице. Можно также воспользоваться окном быстрого поиска слова. Как получить информацию об употреблении отдельных форм слова?Помимо информации об употреблении леммы (то есть слова во всех формах словоизменения), в словаре можно узнать, как употребляются отдельные словоформы. Перейдите в раздел Алфавитный список словоформ, выберите букву, с которой начинается словоформа и найдите ее в таблице. Можно также воспользоваться окном быстрого поиска, например: Словоформа: лету Чтобы найти все словоформы, начинающиеся (или заканчивающиеся) с определенной последовательности букв, используйте в окне поиска знак звездочки (*). Например, все словоформы, начинающиеся с усыпи-, можно найти, набрав: Словоформа: усыпи* Все словоформы, заканчивающиеся на –иком, можно найти, набрав: Словоформа: *иком Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0,1 ipm (всего около 15 тыс.) и содержит информацию об их общей частоте. Омонимичные словоформы помечены в таблице знаком *. Как найти информацию о «самых употребительных» словах?С помощью нашего словаря можно найти информацию о классах слов, отличающихся общими статистическими характеристиками. Это, в частности: и прочие частотные списки частеречных классов. Кроме предлагаемых классов, вы можете самостоятельно исследовать другие группы слов, воспользовавшись в разделе Алфавитного списка словоформ таблицей «Общий алфавитный список» (например, можно исследовать наиболее частотные глаголы с приставкой пере-, слова, встречающиеся более чем в 200-х текстах и многое другое: принципы группировки классов зависят от ваших задач и от вашей фантазии). Как проследить распределение частотности в текстах разных функциональных стилей?В частотном словаре Л.Н.Засориной приводятся данные об употреблении слова в четырех типах текстов: (I) газетно-журнальных текстах, (II) драматургии, (III) научных и публицистических текстах, (IV) художественной прозе. В нашем словаре можно получить сходную информацию, воспользовавшись разделом «Распределением лемм по функциональным стилям». Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и живой устной речи. По сравнением со словарем Л. Н. Засориной состав рубрик несколько изменен: вместо драматургии используются записи живой устной речи и расшифровки фонограмм кинофильмов, научная литература выделена в отдельную рубрику, наряду с официально-деловой, церковной и прочей нехудожественной литературой. В список включены 5 000 самых частотных лемм этих подкорпусов. Для каждой леммы указана часть речи, частотность в подкорпусе и коэффициент D. Что такое словарь значимой лексики (художественной литературы и т. д.)?Существуют слова, которые гораздо чаще употребляются в одном из фунциональных стилей, нежели в остальных. Например, для живой устной речи такими словами являются вот, вообще и ладно. Дейсвительно, трудно предположить, что в научно-технической литературе эти слова употребляются также часто, как в бытовом языке. Список наиболее типичных лемм для каждого функционального типа текстов был выделен на основе сравнения частоты лемм в данном подкорпусе текстов и в остальном корпусе. Словари значимой лексики включают по 500 лемм. Что означают показатели frq1, frq2 и LL-score в словаре значимой лексики?Frq1 – это общая частота леммы во всем корпусе (в единицах ipm), frq2 – это частота леммы в данном подкорпусе (подкорпус художественной литературы, публицистики, прочей нехудожественной литературы и живой устной речи, соответственно), LL-score – это коэффициент правдоподобия, вычисляемый на основе frq1 и frq2 по формуле, предложенной П.Рейсоном и А.Гарсайдом (см. об этом подробнее во Введении к словарю). Чем выше показатель LL-score, тем более значимо слово для данного функционального стиля. Как получить список 100 самых частотных глаголов?В разделе «Общая лексика: части речи» частотный список лемм разбит на семь подсписков: имена существительные, глаголы, имена прилагательные, наречия и предикативы, местоимения, числительные и служебные части речи. Здесь для каждой леммы указана ее общая частота и ранг (порядковый номер) в общем списке. Каждый список содержит по 1 000 наиболее частотных лемм. Таким образом, можно получить список 100 самых частотных глаголов, зайдя в подраздел Частотный список глаголов и выбрав первые 100 глаголов в верхней части списка. Точно так же можно узнать, какое прилагательное является наиболее частотным (как указано в разделе Частотный список имен прилагательных, это прилагательное новый) и выяснить много других интересных фактов, касающихся состава частеречных классов. Как пользоваться вспомогательными таблицами?Вспомогательные таблицы включают, во-первых, в данные о частотности частеречных классов, а также других грамматических категорий. Эти данные получены на основание подкорпуса НКРЯ со снятой (вручную) лексико-грамматической неоднозначностиью (размер более 6 млн. словупотреблений). Поскольку статистические данные касаются крупных классов слов, есть основания полагать, что и во всем корпусе пропорция частей речи и других грамматических категорий будет такой же. Во-вторых, в данном разделе приводится информация о покрытии текста лексемами, средней длине слова, словоформы и предложения. В-третьих, здесь приводятся частотные списки употреблений букв русского алфавита, знаков препинания, а также двубуквенных и многобуквенных сочетаний.
| |
|
Сайт создан при финансовой поддержке Федерального агентства по образованию в рамках Федеральной целевой программы "Русский язык" (Госконтракт П66).
© Институт им. В. В. Виноградова РАН 2008.
© Национальный корпус русского языка 2008.
Создание сайта, техническая поддержка – А. В. Санников, support@ruslang.ru