Презентации_Мат.методы в лингвистике


Математические методы в лингвистике
Введение
Применение математических методов
грамматические и семантические признаки текста
звуко-буквенные ассоциации
модели стихотворного ритма и рифмы
тематическая структура ХТ
динамика индивидуального стиля
структура литературной ситуации
… …
В. Г. Адмони, В. С. Баевский, М. Л. Гаспаров, А. П. Журавлев, Ю. Н. Караулов, А. Н. Колмогоров, А. Я. Шайкевич, J. F. Burrows, T. N. Corns, D. L. Hoover и многие др.
Направления и темы курса
Основы математического анализа в лингвистике.
Статистическая лексикография. Статистика и корпусная лингвистика.
Математические методы в стилистике и лингвистике текста. Стилометрия. Статистика и фоносемантика.
Статистические меры при оценке степени близости слов. Измерение семантических расстояний.
Критерии социолингвистического и ассоциативного эксперимента.
Вопросы кодификации нормы и количественные исследования речевой вариативности.
математические методы в общем языкознании: классификация языков, глоттохронология, исследование циклических процессов в языке и т. д.
Специфика гуманитарных исследований
Неточность, расплывчатость понятий и определений. Многозначность терминологии.
Преобладание качественных характеристик их основных объектов.
Ограниченность возможностей проведения активного эксперимента.
Большой объем исходной информации.
Именно второй пункт, преобладание качественных (а не количественных) характеристик объектов, осложняет построение формализованных теорий в гуманитарных сферах.
Острота четвертого пункта в отношении текстового анализа постепенно снимается с развитием компьютерных систем и корпусных проектов.
Лингвистика
Гуманитарная сфера?
1. Особенности лингвистических объектов
2. Общие интересы наук:
лингвистика  биология, физика
лингвистика  социология, психология
лингвистика математика, информатика
… … …
? лингвистика  литературоведение
Свойства лингвистических объектов
измеримость
системность
вероятностный характер процессов
Случайным (стохастическим) называется процесс, мгновенные значения которого являются случайными величинами.
Детерминированные процессы: уникальный и предопределённый результат для заданных входных данных.
Компьютерный алгоритм, химическая реакция.
Подвижность языковой системы, существование «исключений».
Вообще, все процессы, имеющие развитие во времени, с точки зрения теории вероятностей, можно называть стохастическими.
Асимметричность языкового знака
Соотношение формы и содержания:
полисемия
синонимия
Языковые vs. математические знаки
Естественные vs. искусственные языки
Генеральная проблема формализованного разрешения неоднозначностей (снятия омонимии)
Еще раз о формализации
Ю. Н. Марчук: любые данные о языке можно представить в лексикографической форме и — далее — перевести в алгоритмизованную, машинную форму.
[?]
По сути это постулат компьютерной лингвистики.
Еще раз о формализации
Особенности применения формальных методов на графико-фонетическом, словообразовательном, лексическом, синтаксическом, композиционно-текстовом уровнях.
Формальные показатели грамматических значений.
Идиоматичность семантики и затруднительность ее формализации и моделирования.
О разной степени формализации языка
Чем больше степень формализованности метода, тем лучше он будет работать при статистическом измерении. Сравним:
Буквы и буквосочетания
Грамматические признаки слов, синтаксические конструкции
Лексемы (служебные слова/местоимения/знаменат. лексика
Элементы композиции
Слово как центральная единица языка, лексическая статистика
Статусы слова:
лексема – лемма
словоформа – текстоформа (самое частное понятие; термин часто употребляется в корпусной лингвистике). Самое формальное определение т.: «набор знаков от от пробела до пробела»
*слово-ономатема – слово-синтагма в классической лексикологии
Новый частотный словарь русской лексики
Под ред. С. А. Шарова и О. Н. Ляшевской
http://dict.ruslang.ru/freq.php
Основан на данных Национального корпуса русского языка
Содержит информацию о частоте лексем и словоформ разных частей речи
+
Встречаемость слов в текстах разных функц. стилей
Данные о частотности частеречных классов
Частотность букв русского алфавита
Частотность двубуквенных сочетаний
Частотность имен собственных и аббревиатур
Лингвистическая теория текста
Текст – самый сложный лингвистический объект.
Устная речь и художественные тексты как самые сложные тексты.
Стремление к системному описанию формальных и смысловых характеристик (художественного) текста:
см. работы Л. Г. Бабенко, Н. С. Болотновой, В. Г. Гака, И. Р. Гальперина, Ю. В. Казарина, В. А. Лукина, Л. А. Новикова, В. А. Пищальниковой, И. Я. Чернухиной и др.
Опять о «гуманитарности»
Даже упомянутые структурные модели не являются настолько строгими, чтобы их можно было бы превратить в компьютерные алгоритмы.
Моделирование макрокатегорий — таких, как образы автора и персонажей, художественное пространство и время и др., —предполагает человеческое прочтение.
Специфика восприятия литературного произведения, помимо интерпретации смысла слов, предполагает не что иное, как переживание текста читателем.
Формализация при АОТ
Практика автоматической обработки текста — в том числе информационный поиск, автоматическое аннотирование, машинный перевод и т.п. — выдвигает особые требования к «интегральному» описанию текста, которое должно быть абсолютно лишено неформализованных блоков информации, интуитивно понятных только человеку.
Аксиоматические положения
математические методы, позволяют свести до минимума субъективизм исследователя, количественно оценить результат и проверить степень его достоверности.
Чем больше по объему материал, тем объективнее результаты исследования. (вопрос повторяемости единиц).
Необходимо учитывать степень формализации лингвистического материала.
Количественное исследование становится по-настоящему объективным, если оно имеет сравнительный характер.
Корректность выборки зависит от набора причин (пространство, время, человек etc.).
There are three kinds of lies: lies, damned lies, and statistics
Объективность vs. корректность модели
Мат. методы (в том числе математическая статистика) – это лишь инструмент для работы. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Иными словами, даже верные статистические показатели могут создать картину, которая противоречит языковой (тем более – литературно-художественной) действительности.
Cтатистические инструменты в применении к лингвистическим объектам
Статистика
(от латинского status)
Отрасль знаний, изучающая количественную сторону массовых явлений в числовой форме.
Выявляет скрытые закономерности и изучает их с помощью обобщенных показателей.
Статистика и лингвистика: эффективность взаимодействия
Гармоничное сочетание качественных (традиционных и во многом – интуитивных) и количественных методов.
Понимание типов лингвистических задач, решаемых статистическими методами, и возможной исчислимости яз. единиц и их признаков.
Знание лингвистом необходимого набора статистических инструментов.
Текст, словарь, корпус
Основными объектами применения статистики в языкознании обычно является речь (текст), словарные и грамматические данные.
Текст → язык. Количественное описание функционирования различных языковых единиц (фонем, букв, морфем, слов) в тексте: частота употребления единиц, их распределение в текстах разного жанра, сочетаемость и т. п.
Накопление количественной информации о классах единиц, о конструкциях (напр., данные о средней длине слова или предложения, о частоте употребления каких-либо грам. форм в тех или иных синтаксических функциях и т. п.).
Такая информация углубляет описание единиц языка.
Сегодня объектом применения статистики все чаще становятся лингвистические корпуса.
Выборочный метод в статистике
Статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку.
Необходим, когда исследовать всю совокупность (например, по причине объема) невозможно. [Пример с кубиком]
В лингвистике используется широко:
исследование множественных речевых фактов
социолингвистические опросы (напр., критерии нормативности, лингвистические ассоциации, вопросы интерпретации текстов и т. д.)
Выборочный метод
Пример с орфоэпическим опросом:
обеспéчение или обеспечéние?
Случайная величина в этом случае может принимать только одно значение из двух (если только информант не колеблется).
Тогда возможные степени градации:
не знаю
скорее, 1-е
скорее, 2-е
Генеральная совокупность и выборка
Генеральная совокупность – множество всех мыслимых значений изучаемой величины.
Выборка – некоторое наблюдаемое подмножество генеральной совокупности.
проблемная область vs. корпус данных
корпус данных vs. конкорданс
Самый объемный поставщик генеральных совокупностей – вся речевая деятельность.
Требования к выборке
по выборке (т. е. по части множества) мы должны сформировать некое представление о всей генеральной совокупности. Чтобы оно не было ошибочным, к выборке предъявляются критерии
репрезентативности
однородности
Репрезентативность и однородность выборки
Репрезентативность: у каждого элемента генеральной совокупности равные шансы попасть в выборку.
Однородность: в выборке представлены значения одной случайной величины, а не нескольких, имеющих существенно различные распределения.
[расчет средней зарплаты]
[распределение слов, напрямую связанных с сюжетом текста]
Первичная обработка данных: пробы и выборочные частоты
Частота как число повторений или возникновений событий (фактов, процессов). Частоту лингвистических явлений или единиц, как правило, нельзя точно предсказать до её измерения. Следовательно, она случайная величина.
Генеральная совокупность → пробы (выборки опред. объема) → суждения о частотах. Выборочные частоты – частоты, показанные отдельными выборками.
Формулы: обозначения частот
Выборочные частоты: x1, x2, x3, x4… xn
Любая выборочная частота: xi
Средняя частота: x.
Первичная обработка данных: группировка
Элементы, наблюдавшиеся в выборке располагаются в порядке возрастания (убывания) соответствующих им частот (для дискретных случайных величин).
! Случайная величина называется дискретной, если ее множество значений конечно или счетно, т. е. значения можно пронумеровать натуральными числами.
Дискретные и непрерывные величины
Примеры непрерывных величин:
масса тела человека за десять лет жизни
скорость автомобиля в течение часа
Выборка и группировка: дискретизация непрерывных величин
Лингво-статистические показатели, как правило, дискретны:
Частота слова в тексте
Количество грамматических разрядов в языке
Количество говорящих
* Количество значений в словаре vs. количество актуальных смыслов слова в речи (проблема синкретизма значений).
Слово идея в толковом словаре
БТС (значения в словаре всегда дискретны):
1. Понятие, представление. Отвлеченная и. || Мысленный образ чего-л., понятие о чем-л. Идеи добра.
2. Прочно сложившееся мнение, уверенный взгляд на что-л. <…> Преданность идее, Политические идеи.
3. Мысль, замысел, намерение, план. И. возрождения России. Прекрасная и.
4. Основная мысль, определяющая содержание какого-л. произведения. || Основной принцип устройства чего-л. И. картины, поэмы.
5. В идеалистической философии: основная причина и источник исторического развития. Абсолютная и.
Слово идея в контексте: А. Платонов, «Чевенгур», смысловой синкретизм
Большевики и прочие уже разошлись с прежнего места, они снова начали трудиться над изделиями для тех товарищей, которых они чувствовали своей идеей.
Вас она [Софья Александровна] помнит — у вас в Чевенгуре люди друг для друга как идеи, я заметил, и вы для нее идея; от вас до нее все еще идет душевный покой, вы для нее действующая теплота…
Идея человека в этих случаях — это и понятие о нем, и мнение, и намерение сделать что-либо для него и себя. Речь здесь идет и об особом философском устройстве человека.
Группировка: лексические частоты в НЧС РЯ
Группировка данных в Access
Группировка данных в Access
Первичная обработка данных: графическое представление
Гистограмма: количественные соотношения показателя представлены в виде прямоугольников или др. фигур, размеры которых пропорциональны.
Первичная обработка данных: графическое представление
Графики делают данные наглядными.
Изучение графика часто позволяет обнаружить дефектность выборки или выдвинуть первичное предположение о распределении данных.
Дальнейшая обработка данных: точечные оценки распределения
Т. о. – число, вычисляемое на основе наблюдений, предположительно близкое к оцениваемому параметру.
Средние значения
Показатели разброса значений
Средние значения
Выборочное среднее – среднее арифметическое для элементов выборки.
Мода – значение, которое встречается наиболее часто. Распределение может иметь несколько мод.
Медиана – значение, которое делит ранжированную выборку на две равные части (или среднее по порядку, рангу значение). Медиана часто согласуется с интуитивным пониманием «среднего».
Средние значения
Выборочное среднее = 157 : 22 = 7,1363636
Мода = 8 (встречается 9 раз). Если в выборке более чем одна мода, она называется мультимодальной.
Медиана = 7 (средняя частота 11-го и 12-го элементов из 22)
В данном случае ср. знач. близки, но они могут существенно расходиться. Вопрос построения модели!
В крупном тексте:«Тихий Дон» (424 684 текстоформы, 22409 знаменатель-ных лемм)
«Тихий Дон»: для знаменательных лемм (22409)
Выборочное среднее = 11,6.
Мода = 1 (встречается 7480 раз). Обычный показатель для практически любого протяженного текста.
Медиана = 3 (частота элемента ранга 11205 из 22409).
Показательность/обманчивость средних величин
Мода и медиана могут быть гораздо более объективными показателями, чем выборочное среднее при выборке, не отвечающей критериям репрезентативности и однородности.
Показатели разброса значений
Объективация средних показателей: методика вычисления отклонения от средней частоты
Стандартные и распространенные показатели разброса значений:
дисперсия
среднее квадратическое отклонение
Эти показатели взаимосвязаны
Дисперсия (Variance, Var.)
 Мера разброса случайной величины, то есть её отклонения от среднего значения:

сумма возведенных в квадрат отклонений частот от среднего показателя, поделенная на n (число выборок) – 1.
Вычисление дисперсии
Допустим, частота слова война в 10 массивах текстах СМИ (ipm) колеблется след. образом:
1000, 970, 1010, 1100, 950, 1002, 980, 999, 1030, 1015
= 1005,6
соотв. 25,6, 1229,2, 24,4…
сумма квадратов отклонений = 14719,32
делим на 10 – 1 = 9
показатель дисперсии = 1635,48
! Дисперсия постоянной величины равна 0.
Среднее квадратическое (стандартное) отклонение (Standard Deviation, Std.Dev.), обозначается или s
Наиболее распространённый показатель разброса значений. Используется при расчёте стандартной ошибки среднего арифметического в статистических измерениях. Определяется как квадратный корень из дисперсии.

Вычисление СКО (дополнение к примеру со словом война)
Допустим, частота слова война в 10 массивах текстах СМИ (ipm) колеблется след. образом:
1000, 970, 1010, 1100, 950, 1002, 980, 999, 1030, 1015
= 1005,6
соотв. 25,6, 1229,2, 24,4…
сумма квадратов отклонений = 14719,32
показатель дисперсии = 1635,48

СКО:
Интерпретация СКО (дополнение к примеру со словом война)
Значения нормально распределённой случайной величины обычно лежат в интервале

(1005,6 – 121,32);(1005,6 + 121,32)
884,28 ~ 1126,92
1000, 970, 1010, 1100, 950, 1002, 980, 999, 1030, 1015
Практическая арифметика для гуманитариев (?)
На практике статистические функции встроены в различные приложения – не только в совсем специализированные (SPSS, Statistica, Statgraphics etc.), но и в универсальные: Access, Excel…
Поэтому главное для гуманитария не столько умение считать (хотя это важно ), сколько знание функциональности статистического инструментария. Это знание позволяет избежать вульгаризации статистики.
Примеры использования показателей разброса: НКРЯ, НЧС РЯ [Шаров, Ляшевская]
Выравнивание распределения частот в сегментах корпуса (коэф. Жуйана, D):
корпус разбивается на n сегментов (100), отражающих жанрово-стилевую разбивку
известны средняя частота слова по всему корпусу (μ) и – среднее квадратическое отклонение μ для отдельных сегментов.
D вычисляется по формуле:
Примеры использования показателей разброса в НКРЯ [Шаров, Ляшевская]
Значение D у слов, частотных в большинстве документов, близко к 100, а в небольшом количестве – к 0. Примеры:
союз но (встречается во всех сегментах): D = 97
сущ. статья (преобладает в юридич. документах): D = 76
сущ. конунг (встречается только в 9, преим. литературно-худож. сегментах): D = 9
Примеры использования показателей разброса при изучении стихотворного ритма [Коломогоров, Баевский]
Каждому слогу стиха ставится в соответствие мера выделенности m, где m принимает значение исходя из ударности/редуцированности (5 степеней градации).
Вычисляется средняя выделенность одного слога по стихотворению в целом.
Среднее квадратическое отклонение выделенности слогов отражает индивидуальные характеристики строки → строфы → текста → стиля → направления…
В.С.Баевский:
«Строки с наибольшим средним квадратическим отклонением суть ритмические раритеты. Они больше всего отличаются от идеального «усредненного» ритма, имеют наиболее заметный индивидуальный ритмический облик».
В итоге среднее квадратическое отклонение выделенности слогов строки «отражает процесс восприятия стиха как результат взаимодействия между ожидаемым вследствие предшествующего читательского опыта и индивидуальным ритмическим обликом данной строки».
В.С.Баевский:
«Стих Б. Пастернака, Н. Ушакова, Л. Мартынова, А. Прокофьева, Д. Самойлова, А. Вознесенского — поэтов разных поколений и разных творческих установок — отличается высокой изменчивостью ритма
Стиху позднего П. Антокольского, А. Твардовского, Я. Смелякова, Е. Винокурова, Е. Евтушенко — опять-таки поэтов очень разных — свойственно ограничение изменчивости ритма.
Первая установка носит новаторский характер, вторая ориентирована на традицию XIX в.».
Cтатистические инструменты в применении к лингвистическим объектам (продолжение)
Необходимость оценки вариативности частот
Случайны или существенны отклонения выборочных частот от средней?
Подчиняются ли общему статистическому закону колебания лексических частот, наблюдаемые на материале корпуса, или метрические отклонения в поэтических текстах?
Два направления ответов:
методы статистики
методы проблемной области (филологии)
Изучение распределения случайных величин
Пример: критерий Пирсона (χ2-критерий)
Распределение в статистике
Распределение вероятностей — закон, описывающий область значений случайной величины и вероятности их принятия.
Р. вероятностей какой-либо случайной величины, задаётся указанием возможных значений этой величины и соответствующих им вероятностей.
В статистике используются различные виды распределений.
Критерий Пирсона (χ2)Chi-squared distribution
(«Критерий согласия») Наиболее универсальный из всех используемых в статистике.
Оценка существенности расхождения наблюдаемых частот языкового явления.
Если выборки имеют одинаковую длину, то

позволяет сличить наблюдаемые величины с теоретической (ожидаемой) величиной.
Критерий Пирсона (χ2)
Можно ли предполагать, что колебания частот случайны, т.е. подчиняются статистическому закону варьирования средней частоты?
Если нет, то они существенны, т. е. на них оказывают влияние внешние, не чисто статистические факторы.
Функция ХИ2ТЕСТ (CHISQ.TEST) в Excel.
Критерий Пирсона (χ2)
Пример Б.Н.Головина (учебник «Язык и статистика»): 5 выборок по 500 знаменательных слов.
Частоты имен прилагательных:
75 70 82 68 80. Средняя – 75.
χ2 = 1,97
В статистике часто используются таблицы критических значений. Исходя из табличных данных сделан вывод о случайности колебания частот.
Критерий Пирсона (χ2)
Другой пример (М. Копотев, учебник «Корпусная лингвистика»): соотношение распределения падежей в подкорпусе церковно-богословских текстов и основном корпусе НКРЯ.
Можно ли предполагать, что падежи в церковно-богословских текстах употребляются так же, как и в среднем по всему корпусу?
Полученная цифра значительно больше пороговой величины – значит, такое распределение имеет существенный характер и испытывает влияние внешних, нестатистических факторов.
Способы изучения зависимостей между случайными величинами
Корреляционный и регрессионный анализ
Корреляция в статистике
(от лат. correlatio — соотношение, взаимосвязь), корреляционная зависимость — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с допустимой степенью точности считать таковыми).
Положительная корреляция  — связь, при которой увеличение одной переменной связано с увеличением другой. Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой.

СВЯЗЬ

Функциональная Корреляционная Отсутствие связи
Функциональной называют такую связь, при которой определённому значению факторного признака соответствует только одно значение результативного. 
(Термин «корреляция» в лингвистике)
Противопоставленность или сближение единиц языка по определённым свойствам (на всех уровнях языковой системы). Более всего развита теория фонологической корреляции (см. в первую очередь работы Н. С. Трубецкого). 
Формальная и содержательная взаимосвязь: ложные корреляции
Устойчивая корреляция между двумя случайными величинами является свидетельством существования некоторой статистической связи, но эта связь не обязательно должна иметь причинно-следственный характер.
Очевидность корреляции может привести к ложным выводам о наличии причинно-следственной связи между парами признаков!
Статистические методы
Для оценивания статистической зависимости между случайными величинами:
корреляционный анализ
регрессионный анализ
Тесно связаны друг с другом.
Корреляционный анализ: определение тесноты связи между двумя или более признаками с помощью специальных коэффициентов. Регрессионный анализ: установление формулы зависимости между рассматриваемыми признаками на основе построения регрессионной модели.
Корреляционный анализ
Метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более случайными величинами. Полезен, когда необходимо поверить гипотезу о наличии зависимостей между фактами ряда А и ряда Б.
Возможен при наличии достаточного количества наблюдений для изучения. Это количество должно не менее чем в 5-6 раз превышать число факторов.
Исходная совокупность значений должна быть качественно однородной.
Чем больше величина коэффициента корреляции, тем теснее связь между явлениями.
Корреляционный анализ
Б. Головин, Н. Барановская: вычисление коэффициентов корреляции на материале частот имен существительных и местоимений в научно-публицистической и художественной речи.
Полученные отрицательные коэффициенты (отрицательная корреляция: -0,9, -0,82) свидетельствуют о наличии сильной отрицательной зависимости между существительными и местоимениями, т.е. увеличение активности одной части речи за счет другой.
Корреляционный анализ
Коэффициенты корреляции относительно просты в подсчете.
Простота интерпретации анализа — широкое распространение.
! Еще раз: сам по себе факт корреляционной зависимости не даёт основания утверждать, что величины причинно связаны между собой, а не наблюдается действие третьего фактора.
Регрессионный анализ
Статистический метод исследования влияния одной или нескольких независимых переменных  X1, X2, X3… Xn на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными.
Цели регрессионного анализа
Определение степени детерминированности вариации зависимой. переменной  независимыми переменными.
Предсказание значения зависимой переменной с помощью независимых.
Определение вклада отдельных независимых переменных в вариацию зависимой.
Пример регрессионной зависимости
Закон Ципфа
закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (рангу этого слова).
Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.
Закон Ципфа: зависимость частоты от ранга
Формула зависимости для закона Ципфа с учетом конкретного корпуса
Обратно-пропорциональная зависимость между рангом слова (r) и его частотой (f),
k – константа, зависящая от корпуса (абсолютное число употреблений самого частотного слова),
α – степенной параметр, зависящий от грамматического строя языка.
Частоты по НЧС РЯ
Чистый Ipm и формула регрессии

Величины, на которых построен график
По НКРЯ видно, что перед нами:
Эмпирическая зависимость, а не строгое соответствие.
Связана с особенностями конкретного языка.
Связана со структурой конкретного корпуса данных.
Закон Ципфа
первая тысяча самых частотных слов покрывает от 70 до 90 процентов любого текста (точный процент зависит от выбранного языка и жанра).
чем дальше от начала списка, тем менее предсказуема частота конкретного слова и тем больше она зависит от структуры корпуса.
[Шаров, Ляшевская]: слова неумолимо и подвох входят в число 20 000 самых частотных слов, а слова изворотливый и раскуривать – за пределами 30 000.
Литературоцентричность корпуса. Специфика моделирования языка.
Закон Ципфа: дискуссия и опровержение
Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к чисто языковым параметрам.
Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.
Статистика и проблемная область
Корреляционный и регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Статистическая корреляция наиболее интересна тогда, когда она указывает на существование закономерной связи между изучаемыми явлениями.
Возвращаемся к проблеме, заявленной ранее
Случайны или существенны отклонения выборочных частот от средней?
Подчиняются ли общему статистическому закону колебания лексических частот, наблюдаемые на материале корпуса, или метрические отклонения в поэтических текстах?
Два направления ответов:
методы статистики
методы проблемной области (филологии)
Статистические методы в лексикографии
Статистическая параметризация в словарном деле
Повторяемость элементов
Структурность
Объемность описываемого материала
Отражение языковых соотношений в статистической картине
Частотные словари
Признаки, применимость, проблемы, обзор источников
Частотный словарь: основные признаки
Список слов с указанием частоты встречаемости.
Область параметризации. Общеязыковой – функционально-стилистический – авторский – текстовый: словари языка, подъязыка, идиостиля автора, текста, разговорной речи.
Достоверность обеспечивается большим корпусом текстов.
Сортировка по убыванию частоты, алфавиту, типичности (слова, частотные для большинства текстов).
Частотный словарь: применимость
преподавание языка
создание новых словарей
компьютерная лингвистика
исследования в области лингвистической типологии
лингвистический «мониторинг», исследование языковых подсистем и идиостилей
определение границ активного словарного состава
частотный словарь и «образ мира»
Частотные показатели
Относительная частота (ipm)
Ранг (порядковый номер). Вопрос нумерации рангов (Засорина: всем словам, имеюшим одинаковую частоту, присвоен один ранг.
Выравнивание показателей за счет анализа встречаемости слов в разных сегментах корпуса (коэффициент Жуйана, D). Влияние дискурса.
Лексический материал
Формализация понятий слова и границ слова. Текстоформы, словоформы, леммы.
Конкордансы, их получение и использование в филологическом анализе.
Частотность слов в Интернете.
Вопрос об измерении частот в обиходно-разговорной речи.
Частотные зоны словаря
Служебные и др. стоп-слова
Частотная знаменательная лексика
Зона редких слов.
Еще раз о законе Ципфа: зависимость частоты от ранга
Закон Ципфа
первая тысяча самых частотных слов покрывает от 70 до 90 процентов любого текста (точный процент зависит от выбранного языка и жанра).
чем дальше от начала списка, тем менее предсказуема частота конкретного слова и тем больше она зависит от структуры корпуса.
Частотный словарь, построенный на базе BNC(Geoffrey Leech, Paul Rayson, Andrew Wilson, pp. 320, Longman, London. 2001)
Частотный словарь, построенный на базе Брауновского корпуса: возможность сравнения корпусов исходя из частотных показателей
most common words in EnglishIt is based on an analysis of the Oxford English Corpus of over a billion words
Частотные словари русского языка
История и современные возможности
Частотные словари РЯ
Г. Йоссельсон (1953, Детройт)
Э. А. Штейнфельдт (1963, Таллин)
Л. Н. Засорина (1977, Москва)
Л. Лённгрен (1993, Уппсала)
Основаны на небольших коллекциях (Засорина – на 1 млн слов, т. е. фактически ipm).
Ранее считалось, что для достоверности описания 1600 – 1700 самых частотных слов достаточно корпуса в 400 000 слов.
Отражают русский язык советского периода (Г. Йоссельсон – досоветского).
Возможность ручного снятия омонимии на базе небольшого корпуса.
Л. Н. Засорина (1977)
Разброс частот в разных словарях (пример Ш – Л), ipm
Новый частотный словарь русской лексики С. Шарова – О. Ляшевской
Коллекция НКРЯ
92 млн текстоформ
Статистика по НКРЯ
Количество вхождений
Количество предложений
Количество текстов
Статитистические данные по С.Шарову
Средняя длина слова 5.28 символа.
Средняя длина предложения 10.38 слов.
1000 наиболее частотных лемм покрывает 64.0708% текста.
2000 наиболее частотных лемм покрывают 71.9521% текста.
3000 наиболее частотных лемм покрывают 76.5104% текста.
5000 наиболее частотных лемм покрывают 82.0604% текста.
Проблемы частотных словарей
вопрос воспроизводимости показателей (при сравнении разных корпусов),
несоразмерность частот отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
определение позиции менее частотных слов, трудность ранжирования
Проблемы частотных словарей
Частотный список, построенный на основе корпуса, отражает специфику текстов, зависит от дискурса!
Вопрос качества грамматической разметки.
Вопрос размера корпуса:
Количество токенов
Знаки пунктуации
«Орфографические» слова
Цифры, сокращения, дефисные написания
Проблемы лемматизации
Лексические омонимы
Формы мн. ч. существительных
Видовые пары глагола
Возвратные и прямые
Степени сравнения
Варианты написания, в т.ч. прописная/строчная
Грамматические аномалии
… …
Лексическая статистика и авторская лексикография
Вопрос отражения подъязыка в словаре
Авторские словари
Стилистические словари
Макроструктура современных корпусов: вопрос корректного моделирования языка.
Словари языка писателя
Стилевые и частотные словари А. С. Пушкина, Л. Андреева, А. Блока, И. Гончарова, А. Грибоедова, А. Дельвига, Ф. Достоевского, А. Чехова, В. Шукшина, поэзии 1-й пол. ХХ в. …
! Проблема отражения специфики идиостиля.
«Топ» лексической частотности по А. О. Гребенникову
А. П. Чехов: говорить, сказать, один, мочь, знать, глаз, человек, рука, лицо, два, стать, глядеть, думать, большой, жизнь, идти, день, голова, сидеть, видеть, другой, жить, дом, казаться, раз, спать, дело, время, жена, люди, бог, взять…
Л. Н. Андреев (рука, глаз, сказать, говорить, мочь, лицо, другой, знать, голова, отец, люди, человек, стать, жизнь, смотреть, видеть, слово, думать, нога, хотеть , голос, идти, день, казаться, раз, земля, женщина, дом, черный, два, ночь, стоять…
Универсальное и индивидуальное в лексических частотах
Постановка проблемы сопоставительного частотного анализа.
Лексикографирование идиом и прочих неоднословных целостностей
Понятие биграммы (n-граммы). Использование статистических мер.
Статистика встречаемости
Статистические методы
MI (mutual informarion), «коэффициент взаимной информации».
t-score, анализ частоты совместной встречаемости слова и его коллоката.
Log-likelihood (логарифмическая функция правдоподобия) отношение функций правдоподобия, соответствующих двум гипотезам – о случайной и неслучайной природе двусловия.
Критерий χ² (Хи-квадрат), или Критерий Пирсона, употребляемый для проверки гипотезы распределения вероятностей.
… … …
Статистические меры. Мера MI
сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно:

MI=log2 , где
MI — объем информации <…>
f(n,c) — частота встречаемости ключевого слова n в паре с коллокатом c;
f(n), f(c) — абсолютные частоты ключевого слова n и слова c в корпусе;
N — общее число словоформ в корпусе.
Если значение MI (n,c) больше 1, тогда данное сочетание слов считается статистически значимым. Вопрос о пороговом значении.
Статистические меры. Мера t-score
учитывает частоту совместной встречаемости слова и коллоката:

t-score = , где
f(n,c) — частота встречаемости ключевого слова n в паре с коллокатом c;
f(n), f(c) — абсолютные частоты ключевого слова n и слова c в корпусе;
N — общее число словоформ в корпусе.
Выделение коллокаций с очень частотными словами (например, служебными). Слова с наибольшим значением t-score оказываются самыми частотными языковыми неоднословными целостностями. Идея стоп-листа.
Статистические меры
коллокации, выделяемые с помощью меры MI, чаще всего являются сложными номинациями (терминами, наименованиями объектов, ключевых для определения предметной области)
критерий t-score направлен, прежде всего, на выделение «устойчивых конструкций», клише и «общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов)
Статистика по слову война [Хохлова 2008]
По словарю коллокаций Е. Г. Борисовой
MI-коллокации по [Ягунова, Пивоварова 2010]
для новостных текстов – 5 КУРМАНБЕК БАКИЕВ, 6 АЛИШЕР УСМАНОВ, 7 БЕНЕДИКТ XVI, 8 УСЕЙН БОЛТ, 12 СЕРДЕЧНЫЙ ПРИСТУП, 13 ОСАМА БИН, 16 СТИХИЙНЫЙ БЕДСТВИЕ, 21 ЛАМПА НАКАЛИВАНИЕ, 22 РАДОВАН КАРАДЖИЧ, 23 ПОЛЕЗНЫЙ ИСКОПАЕМОЕ, 24 ДЖОННИ ДЕПП, 25 ФИДЕЛЬ КАСТРО, ДОЛИНА СВАТ, 30 САДДАМ ХУСЕЙН, 33 СИМФОНИЧЕСКИЙ ОРКЕСТР, 35 КРОВНЫЙ МЕСТЬ, 37 РАФАЭЛЬ НАДАЛЬ, 38 РИММА САЛОНЕН, 40 КРУГЛЫЙ СТОЛ, 41 ГАРРИ ПОТТЕР, 42 РОБЕРТО МИЧЕЛЕТТИ, 43 ЗАРАБОТНЫЙ ПЛАТА, 44 БОСНИЙСКИЙ СЕРБ, 45 ЧЕН ИР;
Материал – портал www.lenta.ru с апреля по декабрь 2009; общий объем проанализированных текстов: более 66000000 «токенов» (словоупотребленией и знаков препинания)
[Ягунова, Пивоварова 2010] Биграммы с наиболее высокими значениями меры t-score
Статистическое исследование словарей
параметры известных толковых словарей [Мухин, 2010, 2013]
Толковый словарь
Объективный аспект: общезначимая модель языковой системы и слепок культуры, отраженной в языке.
Субъективный аспект: индивидуальная языковая модель, определяемая задачами издания и индивидуальными особенностями составителей.
Рабочая гипотеза
Обобщение частотных слов, употребляемых в каждом конкретном словаре может способствовать:
а) систематизации представлений о каждом словарном проекте
б) выявлению как универсальных, так и оригинальных национально-культурных особенностей, отражаемых лексикографическими источниками
Малый академический словарь(МАС)Словарь русского языка под ред. А. П. Евгеньевой
Новый словарь русского языка: Толково-словообразова-тельныйпод ред. Т. Ф. Ефремовой (СЕ)
Толковый словарь русского языкапод ред. С. И. Ожегова и Н. Ю. Шведовой (СОШ)
Толковый словарь русского языкапод ред. Д.Н.Ушакова (СУ)
Модель сопоставления
Общая статистика
Материал
Из каждого словаря выбрано по 10 тысяч самых частотных словоформ (полных слов и графических сокращений)
Полученные четыре списка сопоставлены.
Выявлены словоформы, попадающие в частотный пик всех словарей, и, наоборот, часто встречающиеся только в одном словаре
Лексикографические «универсалии»
маркеры вида глагола (несов. — в среднем 18,4 тыс. и сов. — в среднем 13,5 тыс. на словарь), рода и числа существительного (м., ж., ср., мн.)
пометы разг. (17,6 тыс.), перен.(7,1), устар. (6,2) и уменьш. (1); кроме того, безл., однокр., нескл.
названия частей речи (прил. — 14,7 тыс., сущ. — 8,5, глаг. — 6,7)
сокращения знач., см., употр. и др.
операторы словарных дефиниций и типичные идентификаторы: действие, связанный, свойственный, характерный, выражающий, принадлежащий, являющийся, относящийся, предназначенный, имеющий, сделанный, содержащий, свойство, состояние, процесс, совокупность; человек, время, часть, место, сделать и др.
Индивидуальные словоформы: МАС
Фамилии авторов лит. примеров: Мамин-Сибиряк (ок. 2000 раз), Паустовский, Гладков, Федин, Арсеньев, Каверин, Марков, Бунин и др.
Лексика из названий произведений: [Тихий] Дон, Анна, Каренина, Обломов, [Жизнь] Клима, Самгина, Фрегат, Паллада, Воскресение, Капитанская [дочка], Поднятая, целина и многие др.
сокращения, не принятые в других изданиях: франц., повел., ист., деепр., народно-поэт., трад.‑поэт. и числ. (в прочих словарях числит.).
система подачи финалей слов: ‑нкам, ‑ткам, ‑льно, ‑лось, ‑чно, ‑чкам, ‑лён, ‑лена, ‑вкам, ‑лкам, ‑ствую, ‑ствуешь, ‑жена, ‑жено и т.п.
Маркеры сочетаемости: с определением и с придаточным дополнительным.
Индивидуальные словоформы: СЕ
Термины: суффикс, префикс, словообразовательная, беспрефиксным, мотивирующим, формообразовательная и т.п.; словоформа вносящая; предикатив, этноязыковой, лингвистике, высказывание, несогласованное [определение]; слова придаточной, сложноподчиненного, существительном, глаголом, прилагательным, обозначают, характеризующееся, шутливости, пренебрежительности, порядковое, несовершенного, словосочетании и многие др.
Особые сокращения: неперех., местн. (местное, о диалектизме), пад. (падеж), усилит.
Операторы толкований: соотносящийся (10 тыс. раз) и соотносится (3 тыс. раз) — обычно «по знач. с сущ. или прил.». Специфичные операторы преисполненный (например, постоянного внимания) и приверженец (абсолютизма, богоискательства, вольтерьянства и т.п.).
Индивидуальные словоформы: СОШ
Многочисленные финали слов: ‑ожу, ‑су, ‑твую и ‑твуешь, ‑ленный, ‑нённый, ‑оченный, ‑оенный, ‑оженный, ‑ованный, ‑рённый, ‑уженный, ‑утый, ‑илось, ‑алось, ‑ан, ‑ана, ‑ист и т.п.
Словоформы индоевропейской, финно-угорской, противопоставление и грамматике (в статьях о языках и языковедческих терминах), а также устройству, внутреннему.
Оригинальные сокращения: унич., союзн. (обычно о союзном слове), посл. (пословица).
В иллюстративном материале частотно слово афоризм. Для культурологических справок характерна словоформа сказанию из сочетания «по библейскому (евангельскому) сказанию». В речениях часто используется слово ребенок (ребенка): «глухонемой ребенок», «разуть ребенка» и т.д.
Индивидуальные словоформы: СУ
Доменные пометы: авиац., искус., филол., псих., геодез., геогр., кулин., этногр., дипл., социол., живоп., этнол., педаг., шахм. и даже апт. (аптекарское), плотн. (плотничье дело), порт. и сапож. Хронолог. пометы (старин., дореволюц., истор. и нов.); помета загр. (за границей). Др. стил. и эмоц. пометы: простореч., торж. (торжественное) канц., церк.-книжн., уменьш.-ласкат., ласкат., неодобрит., презрит., уничижит., вульг., фам.
Лингвистические термины: превосх., накл., дееприч., действ., эвф., звукоподраж. и др., — а также этимол. указатели (латин., фр., ит.).
Специфические написания фамилий авторов: Тргнв, Чрншвскй, Острвскй (прочие уступают по частотности).
Идеологемы Сталин, Молотов, Маркс, социалистической, марксизм, капиталист, большевик, ЦК, коммунизм, пролетариат, съезд, эксплоатация, Интернационал и многие др.
Выводы: Индивидуальные параметры словарей
МАС: литературные иллюстрации и общая нейтральность лексикографирования.
СЕ: научность описания и словообразовательные аспекты.
СОШ: точное отражение словоизменения и сокращение объема издания.
СУ: разветвленность стилистической характеристики слов и идеологизированность семантической интерпретации и подбора иллюстраций.
Статистические методы в функциональной и идиостилистике
Статистика и функциональная стилистика
Распределение частей речи в текстах разных функциональных стилей и др. наблюдения
НКРЯ: Распределение словоупотреблений по частям речи (в зоне снятой грамматической омонимии).Знаменательная лексика составляет 59,9 %
НКРЯ: Распределение словоупотреблений по знаменательным частям речи.(наречие = предикатив, числительные- прилагательные = числительные)
Части речи и функц. стили (по данным П. И. Браславского)
Доля знаменат. частей речи в функц. стилях
Соотношение знаменат. частей речи в функц. стилях (% от кол-ва слов ЗЧР)
[Горбич et al. 2012]
Исследованы русскоязычные тексты различных авторов, относящиеся к разным временным периодам: от нач. XVIII в. (В. Татищев, В. Тредиаковский) и до произведений современных авторов (А. Еременко, Т. Кибиров, Т. Толстая, В. Пелевин) – всего 51 поэтический и 51 прозаический текст.
Количество гласных букв составило от 13 297 до 323 073 для поэтических и от 34 193 до 571 426 для прозаических текстов.
Вычислены частоты отдельных букв и их биграмм. Частоты отдельных гласных букв не отличались от средних частот в русском языке.
[Горбич et al. 2012]
При вычислении частотности буквенных биграмм отличие эмпирического распределения от модельного (теоретического) оценивалось по критерию Пирсона (хи-квадрат).

где pi theor – теоретическая частотность i-той биграммы,
pi emp – эмпирическая частотность i-той биграммы,
k – количество биграмм
[Горбич et al. 2012] Вычисленные значения критерия Пирсона для всех текстов были разбиты на две группы «Поэзия» и «Проза»:
[Горбич et al. 2012]
По данным авторов, подобную картину дает исследование текстов разных функциональных стилей: официальных, публицистических, художественных.
Вопрос в специализированной интерпретации полученных данных. На вопрос «Почему?» однозначного филологического ответа пока нет.
Статистика и идиостилистика
Объем произведения, грамматические параметры, «словарный запас».
Применение количественных методов
грамматические и семантические признаки текста
звуко-буквенные ассоциации
модели стихотворного ритма и рифмы
тематическая структура ХТ
динамика индивидуального стиля
структура литературной ситуации
В. Г. Адмони, В. С. Баевский, М. Л. Гаспаров, А. П. Журавлев, Ю. Н. Караулов, А. Н. Колмогоров, А. Я. Шайкевич, J. F. Burrows, T. N. Corns, D. L. Hoover и др.
Лингвистическая теория текста
Существующие структурные модели, как правило, не являются настолько строгими, чтобы их можно было бы превратить в компьютерные алгоритмы.
Моделирование макрокатегорий — таких, как образы автора и персонажей, художественное пространство и время и др., — предполагает человеческое прочтение.
Специфика восприятия литературного произведения, помимо интерпретации смысла слов, предполагает не что иное, как переживание текста читателем.
Проблема квантификации «эстетического объекта».
Художественный текст и статистика
! Однако и художественный текст характеризуется измеряемостью. Он состоит из языковых единиц, имеющих количественные и качественные признаки. Последние формализуются значительно сложнее, если вообще формализуются.
Как с помощью статистических данных отразить в исследовании текста, языка писателя, особенности литературного направления, периода именно то индивидуальное, что характеризует язык произведений?
Как с помощью статистических данных доказать или опровергнуть авторство анонимного или псевдонимного текста?
Объем художественного текста (?)
Жюль Ромен – автор самого длинного (?) произведения в мире. Объем превышает 2 миллиона слов + страничный указатель размером в 50 листов. Роман «Люди доброй воли» (Les Hommes de bonne volonte) составлен из 27 томов, книга писалась с 1932 по 1946 гг.
Объем ХТ не пустая характеристика
Чем больше по объему текст, тем объективнее результаты исследования.
Вероятность стилизации, подделки.
Идиостилевой показатель в пиковых случаях (Л. Н. Толстой, М. А. Шолохов) или повторяющихся формах (напр., онегинская строфа).
Объем некоторых прозаических литературных произведений (сравнение)
Грамматико-статистические параметры
Интерпретация морф. данных
Доля знаменательных слов колеблется у каждого автора от 54 до 60 %, в среднем 57–59 %. Однако обращают на себя внимание различия в самом распределении слов знаменательных частей речи.
Набоков: увеличение доли признаковых слов за счет уменьшения количества существительных и глаголов. Доля прилагательных – более 16 % всех знаменательных форм, вместе с наречиями – 28 %. (у всех прочих — около 23 %).
Шолохов: тяготение к глагольной лексике (почти 35 %), что обусловлено динамичностью сюжетов. Платонов почти так же часто употребляет глаголы.
Булгаков: повышенное количество числительных.
Интерпретация синт. данных
Средняя длина предложения: Булгаков — 11,3, Набоков — 15,7, Платонов — 14, Шолохов — 9,7. Самые короткие предложения в романе «Тихий Дон» — 9,2 слова, самые длинные у Набокова в романе «Дар» — почти 22 слова.
С одной стороны, это связано с сюжетной спецификой. Количество слов во фразе из «Белой гвардии» или «Сокровенного человека» колеблется около десяти. Но даже в предложениях самых «динамичных» произведений Набокова «Король, дама, валет» и «Камера обскура» слов в среднем никак не меньше двенадцати.
Идиостилевые черты: склонность Набокова и Платонова к пространным описаниям предметов, явлений и ситуаций (причем, безусловно, особенная для каждого из них) и быстро сменяющие друг друга, часто отрывочные фрагменты повествования в романах Булгакова и Шолохова.
! Приводимые данные напрямую связаны с принципами членения текста на фразы, заложенными разработчиками в программу Mystem.
«Словарный запас»
Г. Хьетсо: «Богатство авторского словаря предпочтительно оценивать посредством коэффициента типичности знаков (КТЗ), т. е. измерением отношения числа различных форм (типов) слов к общему числу словоупотреблений (знаков) в тексте» [Хьетсо и др., 1989].
С увеличением объема произведения это отношение падает: чем больше роман, тем относительно меньше уникальных слов приходится на целый текст. Б:ТР леммы = 25 % по отношению к словоформам, Б:ММ — 15 %; Ш:СЧ — 42 %, Ш:ТД — 8,5 %. Для выравнивания и объективации этих показателей нужно замерять количество слов в сходных по объему частях текста.
Методика вычисления
Все исследуемые тексты были разбиты на фрагменты по 6 тыс. употреблений слов знаменательных частей речи. Объем в 6 тыс. слов возник неслучайно: самый небольшой из привлеченных текстов — «Судьба человека», в нем около 6 тыс. знаменательных слов.
В каждом из фрагментов по 6 тыс. словоупотреблений вычислено количество лемм и выведено среднее соотношение для всего произведения.
Условный «словарный запас» авторов
Полученные результаты выглядят гораздо более кучно, от 36 % («Котлован») до 53 % («Дар») слов на фрагмент, в основном около 44 %.
Лидирует по количеству слов на единицу текста М. Шолохов (46,6 %), «отстает» А. Платонов (40 %), и, значит, его лексическая повторяемость относительно больше, чем у других.
В. Набоков и М. Булгаков занимают примерно сходные позиции (44,6 и 44,3 % соответственно).
Объем лексикона не эстетический критерий!
Г. Хьетсо: «Следует быть осторожным, чтобы не принять богатство словарного запаса в качестве непременного условия художественного уровня автора. То, с чем мы здесь сталкиваемся, — это прежде всего важная особенность стилистической манеры писателя».
Наши цифры не умаляют одних и не возвеличивают других писателей, но отражают особенности авторского словаря: огромное количество диалектизмов и сниженных слов у Шолохова, особенное отношение к лексической стилистике Набокова, детализацию в булгаковском тексте и достаточно нейтральное отношение к лексическим построениям Платонова.
И. Бродский об А. Платонове
«В отличие от большинства своих современников… Бабеля, Пильняка, Олеши, Замятина, Булгакова, Зощенко, занимавшихся более или менее стилистическим гурманством… Платонов сам подчинил себя языку эпохи, увидев в нем такие бездны, заглянув в которые однажды, он уже более не мог скользить по литературной поверхности, занимаясь хитросплетениями сюжета, типографскими изысками и стилистическими кружевами».
Несмотря на большое количество советизмов, просторечия, технических терминов и авторских слов, увеличивающих словарь, можно признать лексикон, отраженный в текстах Платонова, относительно менее объемным, чем у его знаменитых современников.
«Абсолютный» лексикон (знаменательных слов без имен собственных)
Всего лемм:
Булгаков: 15 516, Набоков: 17 935
Платонов: 12 460, Шолохов: 27 070
Оригинальных лемм:
Булгаков: 2 386, Набоков: 3 909
Платонов: 2 026 слов, Шолохов:10 602
! Не нужно, однако, забывать, что шолоховские тексты по суммарному объему примерно равны сумме текстов всех прочих авторов.
Статистика по парам авторов:
меньше всего совпадений у Булгакова и Платонова (219 слов),
больше всего – у Набокова и Шолохова (2 264).
Статистические методы в идиостилистике (продолжение)
Художественный текст и статистика
! Художественный текст характеризуется измеряемостью. Он состоит из языковых единиц, имеющих количественные и качественные признаки. Последние формализуются значительно сложнее, если вообще формализуются.
Как с помощью статистических данных отразить в исследовании текста, языка писателя, особенности литературного направления, периода именно то индивидуальное, что характеризует язык произведений?
Лексическая статистика и идиостиль автора
Абсолютная частотность слова в тексте сама по себе не может являться показательной для анализа концептуальной системы автора. Существуют слова типа быть, человек, глаз, город, говорить, видеть, хотеть и т.д., часто встречающиеся практически в любом художественном тексте.
Объект рассмотрения – знаменательная лексика
леммы, извлеченные из текстов четырех авторов (М. Булгаков, В. Набоков, А.Платонов, М. Шолохов), упорядочены по частоте
выбрано по 1000 самых частотных в каждом тексте
сформированы группы слов, частотных для одного писателя и нечастотных для других.
М. Булгаков: пьеса, (кот), король, сцена, актер, роман, глава, публика, вскричать, передняя, переулок, автор, директор… 148 слов, 5949 контекстов
В. Набоков: игра, платье, странно, сперва, гостиница, журнал, блеск, столовая, приниматься, панель, стеклянный…196 слов, 5322 контекста
А. Платонов: коммунизм, паровоз, природа, пролетариат, социализм, пища, масса, скучно, пространство, тосковать… 292 слова, 7653 контекста
М. Шолохов: казак, хутор, полк, дед, зараз, станица, бык, фронт, казачий, крыльцо, парень, седло, рубаха… 192 слова, 20929 контекстов
Для сравнения («абсолютный» список самых частотных, без сопоставления, Набоков):
быть, сказать, еще, уже, один, мочь, знать, рука, говорить, человек, очень, стать, вдруг, глаз, теперь, год, день, опять, лицо, потом, дверь, комната, два, нет, время, выходить, жизнь, сидеть, первый, отец, тут, голова, понимать, раз, думать, идти, казаться, дом, жена, видеть, пойти, черный, голос, спрашивать, слово, стоять, ничего, мысль, дело, нога, находить, стол, сразу, окно, хотеть, сейчас, глядеть, белый, смотреть, подумать…
Сопоставление
По результатам анализа можно выделить сферы, в большей и в меньшей степени характерные для авторов
Формализация авторской лексической сочетаемости
Биграмма как синтагматическая единица
Лексические биграммы — пары слов, извлеченных из одного фразового контекста и, вероятно, связанных семантическими отношениями.Например, в предложении
Филологи проводят конференцию осенью
выделяются биграммы: филолог — проводить, филолог — конференция, проводить — конференция, проводить — осень, филолог — осень и т. п.
Часть этих пар связана семантически весьма тесно, часть обусловлена самой ситуацией (филолог — осень) и для языка достаточно случайна.
Синтагматическое основание для сопоставления идиостилей
Специфика контекстного окружения слов, часто встречающихся у всех авторов и во всех 16 текстах, т.е. основных текстовых лексических универсалий.
Одним из членов биграммы, таким образом, должно обязательно быть слово типа человек, глаз, говорить, видеть, один и т. п.
Теоретически так можно выявить авторские приоритеты, выраженные в работе с «универсальным» языковым материалом, или, иными словами, найти различия в использовании слов, которые являются «всеобщими», часто употребляющимися в любом художественном тексте.
Статистические меры
В работах, связанных с извлечением из текста коллокаций (или неоднословных терминов), рассматриваются статистические меры, оценивающие степень случайности/неслучайности появления слов в одном контексте.
Применение одной из этих мер — MI (mutual information, «коэффициент взаимной информации») — к ранжированию корпуса авторских биграмм показывает, что статистическая методика хорошо выявляет общеязыковые коллокации (друг друга, выражение лица, сходить с ума), а также устойчивые выражения, свойственные конкретному тексту (Пролетарская Сила).
Однако составить представление об идиостилевой специфике авторской сочетаемости таким образом невозможно или, по крайней мере, затруднительно во многом из-за того, что результаты зависят от объема текста.
Ограничение материала
В материал включены биграммы, которые одновременно:
1) встречаются в одном тексте не менее двух раз,
2) встречаются не менее, чем в двух текстах одного автора,
3) вообще не попадают в список избранных биграмм других авторов.
Синтагматические связи между членами избранных биграмм проявляются в обязательном наличии семантических отношений, при этом наличие формально выраженных грамматических отношений необязательно.
После применения необходимых ограничений:
определение расстояния между членами пары (<6);
рассмотрение биграмм, строящихся на текстовых лексических универсалиях;
обозначенные идиостилевые критерии
для анализа отобрано 2400 лексических пар, употребленных 21350 раз.
Авторские синтагматические приоритеты
Определен набор текстовых лексических универсалий, имеющих в творчестве каждого из них наибольшее количество употреблений с оригинальными контекстными партнерами.
Способность слов иметь особое контекстное окружение в диссертации названа синтагматической активностью. Ее формализация позволяет построить синтагматический профиль автора — оригинальное количественное соотношение контекстных партнеров текстовых лексических универсалий в различных произведениях одного писателя
Авторские синтагматические профили
Пример интерпретации: идиостиль М. Шолохова
Итак, на основании выборки биграмм, часто встречающихся в разных произведениях одного автора и совсем не характерных для других писателей, установлено, что именно в произведениях Михаила Шолохова больше всего оригинальных контекстных партнеров оказывается у слов, обозначающих части тела человека (глаз, голова, лицо, рука, нога).
Методика дальнейшего анализа строится на выявлении семантических отношений между исходным словом и его контекстными партнерами.
Лицо Шолохова
Слово лицо используется М. Шолоховым в первую очередь вместе со словами смуглый (38 раз), ладонь (34), пот (24), румянец (15), дышать (14), внимательно, оглядывать/оглядеть, взглядывать/взглянуть, глянуть, веселый, загар, осунуться и др.
О биграмме смуглый — лицо. Можно предположить, что это сочетание имеет универсальный языковой характер (т. е. не является идиостилевым показателем).
По данным «Национального корпуса русского языка» частота этой биграммы, т. е. количество вхождений в одном предложении слов смуглый — лицо и лицо — смуглый на расстоянии 5 равно 734. Это на корпус объемом в 175 млн слов, а в четырех текстах М. Шолохова — 38 на 688 тыс. Если привести эти данные к универсальному показателю ipm (количество словоупотреблений на миллион), то в НКРЯ частота равна 4,17, что в 13 раз меньше, чем в произведениях одного М. Шолохова (55,26 в нашем корпусе).
Этой информации достаточно, чтобы считать рассматриваемую биграмму чертой авторской синтагматики.
Обобщение контекстов →набор семантических отношений
Лицо ↔ внешняя характеристика, портрет
Лицо ↔ восприятие другим человеком
Лицо ↔ выражение эмоции
Лицо ↔ сенсорное восприятие персонажа
Лицо ↔ внешняя характеристика, портрет (смуглый, загар, осунуться, пот)
Смуглый — самая распространенная характеристика лица:
Прислонясь к бортам, в ней сидели легкораненые; оттеняя их смуглые, загорелые лица, ослепительно белели свежие бинты (Ш:ЗР);
На смуглом лице его резко белел не тронутый загаром лоб (Ш:ТД);
Но смуглое лицо приезжего было добродушно… (Ш:ПЦ).
Характерный авторский типаж — молодая низенькая, но складная, как куропатка, казачка со смуглым лицом и черными лепными бровями (Ш:ТД). Автор пишет о казачестве юга России; многие его герои — сельские труженики, фронтовики, много времени проводящие на солнце. Часто поэтому встречается и слово загар:
Над ним склонилось бледное, даже под густым загаром веснушчатое лицо незнакомой девушки… (Ш:ЗР);
Лицо ее [Дуняшки], веселое, тронутое загаром и у переносицы веснушками, словно говорило: «Мне весело и хорошо…» (Ш:ТД).
Смуглое лицо часто сопровождает положительная эстетическая оценка:
Ей в ту осень перевалило за сорок, но она еще сохранила в полном и сильном теле, в смуглом лице степную, неяркую красоту (Ш:ПЦ);
Смуглое молодое лицо было красиво и после смерти (Ш:ТД).
Противопоставлено смуглому и загорелому (обычно здоровому) лицу лицо осунувшееся:
У хирурга было молодое осунувшееся лицо (Ш:ЗР);
Осунувшееся лицо его с каким-то фиолетовым оттенком (Ш:ТД);
Он [Разметнов] долго молча смотрел в осунувшееся лицо друга, потом деловито спросил: «Ты нынче завтракал?» (Ш:ПЦ).
Со словом лицо регулярно употребляется и слово пот:
Петро ахнул, на секунду стал, побелел, пот разом залил ему лицо (Ш:ТД).
Лицо ↔ восприятие другим человеком (слова оглядывать/оглядеть, взглянуть, глянуть, внимательно)
На внимание, которое уделяет М. Шолохов описанию лица, указывает частотность контекстов с глаголами восприятия:
Взглянув внимательнее на затененное каской лицо Николая, Звягинцев понял, что дальше вести этот разговор не следует (Ш:ЗР);
Романовский бегло взглянул на ее расстроенное лицо…; Григорий глянул ему в лицо (Ш:ТД) и т. д.
Лицо человека шолоховские герои изучают внимательно, чтобы понять внутреннее состояние собеседника:
Давыдов внимательно всматривался в его лицо и никак не мог определить, серьезно он говорит или шутит (Ш:ПЦ);
Лукомский внимательно смотрел на смуглое лицо Корнилова. Оно было непроницаемо, азиатски бесстрастно… (Ш:ТД).
Лицо ↔ выражение эмоции(слова веселый, ладонь, румянец)
По сравнению с существительными глаз и голова, слово лицо сочетается с существенно меньшим количеством контекстных партнеров, но так же, как и глаза, лицо у героев Шолохова часто бывает веселым:
Прислуживая и глядя на веселые лица, Аксинья сильнее ощущала свое одиночество (Ш:ТД);
как парень, так он с лица веселый, понятливый, а как от молодой жены в полк пришел, так он в момент от тоски одеревенеет и становится пенек пеньком (Ш:ПЦ).
И так же, как голову, лицо в горе или радости прячут в ладонях, закрывают ладонями:
Яков Лукич безнадежно махнул рукой, прижался грудью к дверной притолоке, пряча лицо в ладонях (Ш:ПЦ);
Дуняшка не выдержала и пырскнула, спрятав в ладонях лицо (Ш:ТД).
О сильной эмоции свидетельствует румянец:
На лице Дуняшки то вспыхивал густой румянец, то бледность покрывала щеки… (Ш:ТД);
Лицо Любишкина медленно наливалось синеватым румянцем страшного гнева (Ш:ПЦ).
Лицо и сенсорное восприятие персонажа(глагол дышать)
Эта рубрика выделена в силу частотности сочетания дышать в лицо, употребляемого в буквальном смысле:
Чикамасов закурил и, дыша в лицо Бунчуку густым махорочным запахом, задумчиво кашлянул (Ш:ТД);
Давыдов, наклоняясь к нему за спиной Нагульнова и дыша в лицо по-детски чистым, терпко-винным запахом щербатого рта, сказал… (Ш:ПЦ).
Впечатление от близко говорящего человека может быть нейтральным, приятным или, наоборот, совершенно неприятным:
Варя стремительно подошла и с ходу прижалась к Давыдову, дыша ему в лицо, горячечно зашептала… (Ш:ПЦ);
«Иди скорей!» — шепнул Жарков, дыша в лицо Григорию свонявшимся запахом грязного рта… (Ш:ТД).
Сопоставление с другими авторами
Сопоставим эти множественные примеры авторской сочетаемости с биграммами, характерными для других авторов.
Например, у персонажей Михаила Булгакова характерным является лицо бритое или приятное, на нем выражается та или иная эмоция:
На лицах милиции помаленьку стало выражаться недоумение… (Б:ММ);
Радость выразилась на лице Агапенова (Б:ТР).
В текстах Набокова часто встречается отражение лица в зеркале или изображение лица на фотографическом снимке, а «субъектом» лица в нескольких случаях является юноша.
У Платонова неоднократно употребляются характерные сочетания задумчивое лицо и — грамматически окказиональное — обернуться лицом (т. е. «повернуться лицом к собеседнику»):
Прокофий обернулся своим умным надежным лицом (П:Ч).
Эти контексты и количественно, и качественно, конечно, существенно уступают разветвленной синтагматике слова лицо у Шолохова.
Синтагматические характеристики «частей тела»
Можно констатировать, что многие семантические аспекты употребления слов глаз, голова, лицо, рука и нога сходны. Сплошная маркировка их значений в корпусе текстов как обозначений «частей тела человека» стала бы, как правило, недостаточной или вообще неверной вследствие особых текстовых функций (например, отражения эмоций, физиологического состояния и т. д.). В то же время чисто физические особенности определяют и языковые ограничения: качают головой, прижмуривают глаз, а осунуться может только лицо.
Шолоховские синтагматические предпочтения
Смуглое или осунувшееся лицо и др. (см. ранее)
Глаза — веселые или холодные, потемневшие или посветлевшие, насмешливые, ласковые, косые, красивые, опухшие, припухшие, потухшие; щурить, прижмуривать глаза, блеснуть глазами, указать глазами
Голова, большая, лобастая, которую приподнимают, вскидывают, запрокидывают или роняют на ладони, покачивают ей
Сухие или потные, широкие, смуглые руки, держащие поводья, шашку, вожжи, кнут, седло; ими машут, махают, размахивают, шарят и т.п.
Дрожащие от волнения или гнева ноги, которые часто тяжело волочат от усталости, широко расставляют, свешивают; надевают на них чирики или валенки.
Еще раз о сопоставлении
Многие из приведенных случаев мы можем встретить и у других писателей. Однако здесь речь о частотных приоритетах. Например, то, что люди и лошади ходят при помощи ног, — вообще универсальная пресуппозиция. Из ее существования, однако, не следует, что сочетание ходить, ступая ногами должно быть универсальным для художественного текста. В отличие от других писателей, у М. Шолохова оно часто встречается.
Очевидно, что перечисленные синтагматические приоритеты напрямую связаны с особенностями реализации категории персонажа и — в целом — авторской концептуальной системы в произведениях Михаила Шолохова.
Почему такие методы полезны?
Неинтуитивное определение базового набора художественных концептов
Системное описание идиостиля
Коррекция существующих представлений
Выявление «фоновых» характеристик текста
Статистические методы в социолингвистических исследованиях
Социолингвистика
Изучает воздействие социальной среды на язык и речевое поведение людей, а также языка на социальную среду.
Объект социолингвистики – язык в его функционировании. Язык функционирует в обществе, обладающем определенной социальной структурой, поэтому социолингвистика – наука, исследующая язык в социальном контексте.
Предмет социолингвистики – широкий круг вопросов:
социальная дифференциация языка,
взаимосвязи между языковыми и социальными структурами,
типология языковых ситуаций, определяемых социальными факторами,
взаимодействие языковых и национальных факторов,
социальные аспекты многоязычия,
вопросы языковой политики
… …
Обработка статистических результатов в социолингвистике[Беликов, Крысин, 2001]
Методы социолингвистики
Наблюдение
Устное интервью
Анкетирование
Тестирование
Социолингвистически значимые данные можно почерпнуть из письменных текстов различной стилистической и жанровой принадлежности:
СМИ
переписка
деловая коммуникация
социолингвистические аспекты художественных текстов
… …
Корпус как источник социолингвистических данных. Вопросы использования и интерпретации. Дискуссия.
И классические, и современные методы предполагают статистическую обработку данных.
Обработка статистических данных
Выявление объективно существующих закономерностей.
Определение круга лиц, для которых значение социолингвистической переменной релевантно.
Нередко этот круг лиц выявляется только в результате анализа анкеты. Пример из [Беликов, Крысин, 2001], [Михальченко 1975]:
Опрос жителей практически полностью двуязычной литовско-русской деревни Дегучяй (245 человек, из них 62% литовцы, 34% русские), проведенный в начале 1970-х гг.:
96% смотрели фильмы на обоих языках
книги на втором языке читали лишь 22% из тех, кто пользовался библиотекой
выясняется, что письменной формой второго языка владели 93% лиц в возрасте 19-30 лет и лишь 4% лиц старше 51 года
читающих на обоих языках мало в первую очередь потому, что представители старших когорт грамотны лишь на родном языке.
Обработка статистических данных
По каждому разрабатываемому вопросу важно четко различать:
отсутствие явления,
неприменимость вопроса к какой-либо категории респондентов,
отсутствие данных (например, ввиду неполного заполнения вопросника).
Не смешивать последние с ответами тех, кто затруднился ответить.
Учитывая эти факторы, исследователь приступает к обработке результатов по каждому вопросу анкеты.
Шкалирование данных
Статистические измерения с различным уровнем точности:
Номинальная шкала
Порядковая шкала
Интервальная шкала
Количественная шкала
Номинальная шкала
Классификация данных с указанием, к какой группе они принадлежат
Значениям «мужской пол»/«женский пол» (ответам типа «да»/«нет») могут быть присвоены как значения 0-1, так и значения 1-0 или 2-1, за числами не скрывается ничего, кроме разнесения данных по определенным категориям.
Порядковая шкала
Данные получают числовую оценку, которая указывает на их иерархию, порядок следования, но о количественном значении признака говорит лишь очень условно.
Шкале ответов типа Только А - Чаще А –А и Б - Чаще Б - Только Б может быть сопоставлен числовой ряд 1 – 2 – 3 – 4 – 5, но это не означает, что различие в оценках 1 и 2 (Только А и Чаще А) в точности таково же, как и между оценками 3 и 4 (А и Б и Чаще Б).
Пример из [Бахтин 1984], шестибалльная шкала степени владения языком:
1 – свободно говорит на языке и предпочитает этот язык всем остальным;
2 – свободно говорит на языке, но предпочитает какой-либо другой язык;
3 – говорит на языке, однако старшие замечают в его речи ошибки;
4 – хорошо понимает речь, но сам способен произнести лишь десяток обиходных фраз;
5 – понимает общий смысл сказанного, говорить не может совершенно;
6 – не знает языка.
Интервальная шкала
Величины отражают равные единицы измерения и могут сопоставляться не только по упорядоченности, но и по расстоянию. Пример: измерение особенностей произношения в пределах возрастных групп, отражающих равные интервалы: 16-30 лет, 31-45, 46-60, 61-75…
Интервальные шкалы разделены на равные расстояния, но сама единица измерения обычно имеет условный характер и не существует вне процесса измерения.
Количественная шкала
Единица измерения получает четкую наглядную интерпретацию.
Такими шкалами измеряется, например, возраст или число испытуемых.
Социолингвистика широко пользуется этим типом измерения при описании подходящих характеристик населения.
Собственно социолингвистические переменные привязать к количественным шкалам затруднительно.
Корреляция в социолингвистике
Независимые и зависимые переменные. Пример: возраст – степень владения языком.
Корреляция как зависимость переменных.
Корреляция может быть положительной (переменные возрастают или убывают одновременно) или отрицательной, когда они изменяются в разных направлениях.
Пример: у эскимосов наблюдается положительная корреляция возраста с уровнем владения этническим языком (т. е. чем старше человек, тем выше его уровень владения этническим языком) и отрицательная – по владению русским: чем старше человек, тем ниже его уровень владения русским языком.
Корреляции могут проявляться и при номинальных измерениях. Примеры: уровень двуязычия часто коррелирует с полом (билингвов больше среди мужчин) или с родом занятий (билингвов больше среди торговцев, чем среди крестьян).
Ложные корреляции
Наличие корреляции не обязательно говорит о причинно-следственной связи: оба сопоставляемых показателя могут зависеть от третьего.
Пример: половые различия в знании и употреблении языков связаны не с физиологическими различиями полов, а с половыми стереотипами поведения, которые, по этнографическим данным, не обладают универсальностью.
Экстралингвистические факторы социолингвистических данных как источники возможных корреляций (в т. ч. ложных)
Социальная структура:
Структура общества (этнос как групповая общность; культура)
Индивид и его социальные статусы
Социальное неравенство, социальная стратификация
Демография:
Половозрастная структура
Численный состав населения, его естественное изменение
Территориальный и социальный состав населения
Миграции населения
Публикация социолингвистических статистических результатов
Взаимозависимость переменных представляется в табличном или графическом виде.
Форма подачи во многом зависит от того, кому адресована публикация. Если публикация рассчитана на массового читателя, предпочтение отдается наглядным диаграммам. Профессионала же интересуют более точные и детализированные сведения, которые легче получить при табличном представлении результатов.
Существенная часть социолингвистических исследований строится на сопоставлении ранее опубликованных результатов, а сама возможность сопоставления результатов, полученных разными авторами, зависит от степени сходства использовавшихся методик
Примеры социолингвистических выкладок
Гендерные исследования на материале корпуса
Гендерная характеристика длины высказывания [Даниэль, Зеленков, 2012]
Источник данных – устный подраздел в НКРЯ (10 млн текстоформ).
3 группы документов: публичная речь, непубличная речь, речь кино.
Метаразметка по признакам пола и возраста.
Средняя длина высказывания как социолингвистический показатель. Понятие «реплики» как набора высказываний до смены говорящего или до конца документа.
Стереотип женской речи: «болтливость».
Полученные данные
Средняя длина реплики
Мужчины: 26,34 слова
Женщины: 15,41 слова
Средняя длина реплики в публичной речи
Мужчины: 30,36
Женщины: 20,65
Средняя длина реплики в частной речи
Мужчины: 10,77
Женщины: 10,29
Полученные данные
Средняя длина реплик в зависимости от пола адресата
В частном разговоре женщина больше говорит с женщиной, а мужчина – с мужчиной. В публичной речи пол адресата значительно увеличивает продолжительность реплики у обоих полов.
Гендерные характеристики ряда семантических классов слов [Мухин, 2014]
Источник данных – основной подраздел в НКРЯ
На текущий момент в основной части корпуса
Мужских текстов: 32 806 документов,
15 071 686 предложений, 180 140 656 слов (180 млн).
Женских текстов: 10 511 документов,
2 566 969 предложений, 28 914 624 слова (29 млн).
Доля текстов с обозначенным полом автора:
86,2 % 13,8 %
Предыстория и уточнение терминов
Проблема междометий
Кто чаще ахает – женщины или мужчины?
Если судить по зоне снятой грамматической омонимии, мужчины употребляют междометия в два раза чаще, чем женщины (1604 ↔ 891 на миллион слов, ipm).
Определимся с понятиями:
гендер – статистические различия в приоритетах употребления слов мужчинами и женщинами, объясняемые социальными стереотипами;
антигендер – отсутствие таких различий;
трансгендер – выбор приоритетов употребления слов, стереотипно свойственных противоположному полу.
Гендерно маркированные группы слов и социальное ожидание (гипотеза):
Чувства, эмоции
Цвета, цветовая картина мира
Деньги
Спорт
Алкоголь, табак
Неприличные слова
Секс, сексуальность
Учитывается фактор омонимии при подборе материала
Чувства, эмоции
любовь
любить
любимый
ненависть
ненавидеть
радоваться
радость
радостный
грустить
грусть
грустный
счастье
счастливый
несчастье
несчастливый
горе
горевать
Цвета, цветовая картина мира
Цвета: значимые гендерные различия
Деньги
Спорт
Алкоголь, табак
Неприличные слова
Мат (три корня)
Секс, сексуальность
Статистика употребления слов с корнем секс-, ipm:

Основные итоги
положит. чувства, эмоции
цвета: частные различия
деньги (кроме рубля)
алкоголь (водка), курение
мат
отрицат. чувства, эмоции
цветовая картина мира
деньги (рубль)
междометия
спорт, кроме хоккея
коньяк, пиво, сигареты
грубое просторечие
секс, сексуальность (?)
Статистические методы при изучении языковой нормы:
орфоэпия и культура речи, орфография
Норма и нормативность
Норма — система устойчивых реализаций языковой системы, закрепленных в процессе коммуникации.
В понятие произносительной нормы включают произношение и ударение; иногда — в широком понимании — образование вариантных грамматических форм
коне[ч]но — коне[ш]но, аф[э́]ра — аф[о́]ра, [ш]тобы — [ч]тобы.
щаве́ль — ща́вель, де́ньгами — деньга́ми
сыпет — сыплет, дверьми — дверями.
Синтетические случаи: до́кторы — доктора́.
Норма, сознательно культивируемая обществом, — черта литературного языка.
Двойственность отношения к нормативности.
Орфоэпическая и орфографическая норма
Орфоэпия (с греч. правильная речь) — совокупность произносительных норм языка (обеспечиает единообразие его звукового оформления); раздел лингвистики, изучающий произносительные нормы.
Орфоэпия и орфография: разница в установках говорящих и пишущих. Стихийность, естественность развития орфоэпии, менее жесткие и отчетливые средства кодификации, чем у орфографии.
Бессознательность отношения к орфоэпическим нормам и, вообще, к своему произношению. Более активное развитие, дискуссии, внимание общества. Консерватизм словарей. Орфоэпические варианты в тестах по русскому языку.
Проблема орфоэпии, нормирования становится насущной в эпоху создания единых национальных языков.
Борьба за орфоэпическое единство языка против территориальных и социальных форм речи.
Норма и варианты произношения
Проблема нормы принципиально возникает в том случае, когда одна единица в языке имеет несколько реализаций, вариантов произношения (тв[о́]рог — твор[о́]г, до[шт’] — до[ш’]).
Орфоэпия, в отличие от орфографии, допускает варианты! Л.В. Щерба «...полтораста миллионов, рассеянные по колоссальной территории, не могут говорить одинаково, а писать должны одинаково».
Шкала нормативности (Р. И. Аванесов):
1) варианты равноправны (дождь),
2) один вариант предпочтительнее остальных, допустимых (доп. тв[о́]рог, д[э]кан), допустимо устаревающих (горни[шн]ая, рек[а́]м),
3) один вариант является правильным, остальные не рекомендуются (не рек. ок[о́]н), запрещаются (доку́мент, до́цент, шо́фер, по́ртфель; о[дыэ]колон) — пометы неправ., груб. неправ.
Пометы доп. новое [зд’]есь и доп. разг. [щас]
Норма и система языка
Норма и система языка: избирательность реализации.
Норма изменяется, если по разным причинам появляются новые формы, постепенно вытесняющие старые.
Причины возникновения и факторы развития нормы:
а) фонологические: фонологическая система и тенденции ее изменения;
б) экстралингвистические (влияние письма, взаимодействие социальных и территориальных дилектов (оканье, фрикативный []), распространение информации (роль театра и кино, радио и телевидения — звучащих СМИ), нормативные оценки говорящих (в том числе эстетические) и, вообще, реальное словоупотребление, речь.
Кодификация как научное описание, фиксация норм в нормативных документах (словарях, справочниках, грамматиках).
Вневременная дискуссия пуристов и антинормализаторов.
Признаки нормативности
Устойчивость, консерватизм
Распространённость языкового явления (узуальность) — количественный фактор. Норма и узус (?). то́карей или токаре́й, То́карей или Токаре́й?
Изменения в узусе, закрепляясь, превращаются в изменения системы (нормы).
Употребительность в авторитетных источниках. Критерии и сферы авторитетности (?):
вся речевая деятельность
вся литература
все нехудожественные тексты
театральная речь
речь СМИ (письменная и устная)
речь филологов (?)
речь «образованных людей» (?)
Соответствие системе языка.
Кодификация, колебания нормы, отставание словарей (?)
исчерпать, догмат, предвосхитить, мизерный, мастерски, обеспечение…
стратегия, тент, компьютер, детектив…
скучно – [шн] или [чн]?
Парадигма глаголов на -ить:
дружить
долбить
сверлить
бурить
крепить
включить
звонить
Орфографические вопросы
плеер – плейер – плэер – плэйер
бренд – брэнд
репер – реппер – рэпер – рэппер
бэкграунд – бекграунд – бакграунд
блогер – блоггер
считанный – считаный, линованный – линованый
прайм-тайм – праймтайм
Словари дают нормативную характеристику, но реальная вариативность существует.
Некоторые из проблем (например, выбор Э или Е) являются одновременно и орфографическими, и орфоэпическими.
Экскурс в историю вопроса.
Источники данных
Опрос говорящих (пишущих) и наблюдения
Корпуса текстов (письменных и устных). Поэтический корпус как «звучащий» текст с рифмой и ритмом. Пример задания:
* В стихотворении «Поэт и гражданин» Николай Некрасов говорит: Иди в огонь за честь отчизны, // За убежденье, за любовь... // Иди, и гибни безупрёчно. // Умрешь не даром, дело прочно,// Когда под ним струится кровь... Пользуясь поэтическим корпусом, докажите, что это не единственный в 19 в. пример такого произношения слова безупречный.
Независимо от написания с Е или Ё – рифмы по корпусу: прилагательные прочный, беспорочный, непорочный и образованные от них наречия.
Различные письменные и устные источники (художественная литература, СМИ, записи устной речи и т. д.).
Интернет
Узус и словари
расхождения между орфоэпическими словарями (так называемой «эксплицитной нормой») и данными опросов и наблюдений («имплицитной нормой»).
Например, форму налúл, имеющую в словарях пометы доп. и разг. при нормативном нáлил, по данным Э. М. Шараповой [2000], употребляют и признают правильной 92,5% говорящих;
переня́ли (норма — пéреняли) — 88,8%;
посéлишь (норма — поселúшь) — 88,7%,
помéстятся (норма — поместя́тся) — 87,7%.
Специфика опросов
неспособность говорящих во многих случаях объективно оценить не только свою речь, но и письмо
зависимость оценок от социолингвистических признаков людей, узуса и моды
диалектные различия
индивидуальные особенности произношения и словоупотебления
влияние звучащих СМИ
возрастные особенности (колебания старшей и младшей нормы)
Как бы тщательно ни подходили исследователи к формулировкам вопросов, часть заполненных анкет может оказаться дефектной.
Решение проблем анкетирования
Для того чтобы проверить устойчивость ответов информанта об одних и тех же явлениях спрашивается по-разному, например:
 
(а) "Как Вы произносите: з(ь)верь или з(ъ)верь (зверь)?"______________
(б) "Сравните: зверь - звать.
В каком слове Вы произносите "з" мягче? (Подчеркните это слово; если же разницы в произношении "з" нет, то подчеркните оба слова)".
Решение проблем анкетирования
Отвлекающие задания. Так, в вопроснике по русской морфологии [1963] авторы просили заполнять не только те пропуски в тексте, которые интересуют исследователя, но и пропуски, не предполагающие никакой морфологической вариативности:
Мы выпили три стакан... молока и две чашки ча... (варианты возможны только в последней словоформе: чая / чаю, но не в словоформе стакана)',
В этом собрани... участвовали представители разных профессий: врачи, фармацевт..., бухгалтер..., учител..., инженер..., кондуктор..., железнодорожник...
В вопросах об акцентных вариантах (типа звонишь / звенишь, два шага / два шага и др.) отвечающий должен был расставить ударения не в отдельных словах, допускающих вариантную акцентовку, а во всех словоформах предложений, так что подлинная цель задания оставалась для него не вполне ясной.
Решение проблем анкетирования
Использование контрольных вопросов:
- Мягко или твердо Вы произносите звук "с" в слове трость! Мягко. Твердо. (Нужное подчеркните);
- Какой гласный в Вашем произношении больше похож на "а": в первом слоге слова ходить или в первом слоге слова ходуном!;
- Что Вы произносите на месте предлога "С" в сочетаниях с Женей, с жаром!
- Как Вы произносите (подчеркните): пОшел или пАшел рОссказ или рАссказ! 
Решение проблем анкетирования
Цель контрольных вопросов – проверить, правильно ли оценивает собственную речь говорящий и не является ли он диалектоносителем. Если человек, заполняющий вопросник, давал такие ответы: мягко произношу "с" в слове трость, в произношении слова ходить первый гласный больше похож на "а", чем в слове ходуном, и т. д. – то его ответы на остальные пункты вопросника используются для дальнейшего анализа.
Иные ответы свидетельствуют о том, что человек "не слышит" своей речи или же для него характерны такие речевые особенности, которые не являются литературными (например, оканье: пОшел, тОпор и т. п.). Ответы таких информантов к анализу не привлекаются.
Речь «образованных людей» (?)
Сложный тезис [Пожарицкая 2004]:
Единственным критерием правильности орфоэпических рекомендаций является узус тех людей, которые по своему социальному статусу должны считаться говорящими на литературном языке.
Для успешности орфоэпической деятельности необходимо в большей мере пользоваться методами социолингвистики.
Если такие исследования не проводятся, то, очевидно, пометы орфоэпических словарей должны быть менее жесткими.
Корпус как источник данных [Добрушина]
Прочитайте приведенные ниже примеры употребления слов эк и эко в текстах XIX века. Сформулируйте, чем отличаются контексты этих слов.
1) Эко слово, спасенная душа, ты молвила! [П. И. Мельников-Печерский. В лесах. Книга первая (1871–1874)]
2) Эко блюдо изготовили! [М. Н. Загоскин. Вечер на Хопре (1834)]
3) Эко счастье привалило; да я столько родясь и не видывал… [Д. И. Фонвизин. Недоросль (1782)]
4) Эк его носит! [Д. В. Григорович. Кошка и мышка (1857)]
5) …Эк они храпят, окаянные—всех бы разом; так и концы в воду. [А. С. Пушкин. Дубровский (1833)]
6) — Эк тебя угораздило, Спирька. [Д. Н. Мамин-Сибиряк. Озорник (1896)]
7) Эк куда метнул! [Гоголь Н. В. Ревизор (1836)]
8) Эк он их цепляет! [А. В. Сухово-Кобылин. Свадьба Кречинского (1855)]
Корпус как источник данных
Среди современных примеров найдите те, в которых слова эк и эко употреблены не по нормам XIX в.
1) …Я снова остановилась. Эк меня заносит! Надо поспокойнее. [Дарья Донцова (2004)].
2) Парень вдруг расслабился и даже разулыбался. «Эко его кидает», — подумала Лизавета [Е. Козырева (2001)]
3) — Эк куда тебя понесло! При чем тут президент? Я с ним встречаться не собираюсь. [Семен Данилюк (2003)]
4) Эко хватил г-н Огарев! А на практике, после женитьбы, оказалось проще простого: не сошлись характерами и разошлись [Юрий Безелянский. В садах любви (1993)]
5) «Эк разрезвилась сестренка,—думал Павел, стараясь подняться до обычного своего покровительственного тона с младшими. [Ирина Ратушинская. Одесситы (1998)]
6) Не нравится мне этот конец дикостью своей, нелепостью и тем, что вроде бы и не вытекает из всего сказанного выше. Так сочини другой, эко дело! [Кураев Михаил (2000)]
Корпус как источник данных
Однако корпус, даже сбалансированный, не всегда может быть источником проверки нормативности:
объем
преобладание письменной речи и литературоцентричность
условность акцентной разметки
неразличение Е и Ё в основной части
Может быть, нам поможет Интернет?
Э или Е? Флэшка или флешка?
НКРЯ: флешка (37), флэшка (18) на 265,4 млн слов.
* Yandex: флешка (15 млн), флэшка (17 млн)
Yandex: !флешка (2 млн), !флэшка (802 тыс.)
Yandex: !флеш-карта (9 млн), !флэш-карта (3 млн)
Для сравнения:
!плеер (18 млн) – !плейер (1 млн) – !плэер (99 тыс.) – !плэйер (52 тыс.)
Заметим, что в Яндексе русские словоформы (и слова) соотнесены не только с русскими, но и с английскими! На запрос «плеер» выскакивает и такое:
Windows Media Player 11. Nero MediaHome. PotPlayer. Adobe Flash Player. AIMP. iTunes.
Пэйнтбол или пейнтбол? [Беликов 2010]
пейнтбóл, а, м. [пе]йнтбóл и [пэ]йнтбóл
Спорт. Вид спорта: командная военная игра, одним из элементов которой является условное поражение противника из оружия, стреляющего краской; такая игра как вид развлечения. Провести соревнования по пейнтболу между командами. Чемпионат по пейнтболу.
О частоте слов в Интернете
Google: «Таллинн»: 2,04 млн
2,04 млн – 1,097665 млн (сумма употреблений конкретных словоформ = 942 335 (потерянный остаток)
Интернет как источник данных
Итак, Интернет нельзя рассматривать как надежный источник
Особенности Интернета как псевдокорпуса:
Особенности статистики в поисковых системах
Возможность поиска в пределах определенного сайта (сайтов)
Операторы запросов для лингвистического поиска
Большой объем – не самого Интернета, а проиндексированного контента (!) в базах информационного поиска
В то же время Интернет и корпуса, при всех претензиях – это принципиально новые и перспективные источники данных.
Статистические методы в лингвистическом ассоциативном эксперименте
Ассоциативный эксперимент и ассоциативный словарь
Ассоциативный эксперимент
Опрос некоторого количества людей на предмет выявления их ассоциаций (реакций) на определенные стимулы. Информация о респондентах, а также их ассоциации со стимулами вносятся в базу данных, позволяющую формировать статистику и, в дальнейшем, анализировать пары «стимул-реакция» (или обратное соотношение «реакция-стимул») в общем или в разрезе различных групп респондентов. 
Цель – формирование широкой (т.е. содержащий большое количество пар стимул-реакция) и глубокой (т.е. включающей большое количество ассоциаций на каждый стимул) базы данных, на основе которой возможно:
понимание ассоциативного ряда усредненного респондента в современный период;
построение и анализ ассоциативных взаимосвязей между словами, поиск закономерностей;
формирование прямого и обратного ассоциативного словаря.
В дальнейшем результаты ассоциативных экспериментов могут иметь применение в самых разнообразных сферах деятельности человека – от реализации контекстного поиска в сети Интернет до составление наиболее убедительных рекламных текстов. Ср. использование АЭ как метода определения сходства товарных знаков.
Примерная инструкция
Сейчас Вы получите список слов, Вы должны будете последовательно читать слово за словом и писать рядом с каждым словом первое слово, которое придет Вам в голову. При этом Вы должны писать предельно быстро, не раздумывая, быстрота Ваших реакций является обязательным условием работы в эксперименте.
Классификации ассоциаций
«Семантические» параметры (Дж. Миллер):
контраст (мужчина — женщина), сходство (скорый — быстрый),
подчинение (животное — собака), соподчинение (собака — кошка),
обобщение (огурец — овощ), ассонанс (рот — крот),
часть — целое (день — неделя), дополнение (вперед — марш) и т. д.
«Полилингвистические» параметры (А. П. Клименко):
фонетические, в которых налицо созвучие между стимулом и реакцией, но не выражено (или очень слабо выражено) семантическое обоснование ассоциации (день — тень, лён — клён);
словообразовательные, основанные на единстве корня стимула и реакции, но не отражающие четких и однообразных для разных слов семантических отношений между стимулами и реакцией (жёлтый — желтуха, жёлтый — жёлчь);
парадигматические ассоциации, отличающиеся от стимула не более чем по одному семантическому признаку (стол — стул, высокий — низкий, достать — купить);
синтагматические ассоциации, составляющие вместе со стимулом подчинительное сочетание (небо — голубое, женщина — красивая, достать — билет, высокий — мужчина);
тематические (соль — земли, темно — ночь);
цитатные (старик — море, белый — пароход, дядя — Стёпа);
грамматические (стол — стола, бежать — бегать).
Русский ассоциативный словарь под ред. Ю. Н. Караулова. М., 1994.
Словарь, репрезентирующий ассоциативно-вербальную сеть русского языка, получен в массовом эксперименте в период с октября 1988 г. до мая 1990 г. Эксперимент был организован стандартным образом: каждый его участник получал анкету со 100 словами-стимулами, и, согласно инструкции, в течение 7-10 минут должен был заполнить ее, написав против каждого стимула первое пришедшее ему на ум слово, вызванное в его сознании этим стимулом.
Реакция на стимул жизнь: мужчины и женщины
Стимулы, на которые дана реакция жизнь: мужчины и женщины
Ассоциациативно-вербальная сеть
Ассоциативный словарь как модель речевых знаний носителей русского языка, представленных в виде ассоциативно-вербальной сети (АВС), позволяющей объяснить феномен владения языком и служащей — наряду с текстовым и системным — способом представления русского языка.
АВС служит новым способом репрезентации языка, в котором даются все значения полисемантического слова, его синонимические и антонимические ряды, синтаксическая сочетаемость, словоизменительная и словообразовательная варьируемость и т.д.
Идея построения «когнайзера» – семиотической машины (автомата), компьютерной системы / технологии, реализующей возможные модели перациональных отношений, существующих в сознании носителя языка культуры, между языковыми единицами (ЯЕ), которые зафиксированы в различных ассоциативных и когнитивных экспериментах (см.: Караулов Ю.Н., Филиппович Ю.Н. «Лингвокультурное сознание языковой личности. Моделирование состояния и функционирования», М.: Азбуковник, 2009).
Ассоциативный эксперимент в фоносемантике
Фоносемантика. А. П. Журавлев
«Фонетическое значение», «Звук и смысл» и др. работы.
«Символику звуков речи можно считать значимостью фонетической формы, или фонетическим значением».
На наше восприятие оказывает давление и буква, т.е. те ассоциации, которые возникают под воздействием ее графического образа.
Носитель фонетического значения — звукобуквенный психический образ, а звукобуква — единица изучения фоносемантики.
Фонетическое значение специфично для каждого языка
Фоносемантика. А. П. Журавлев
Признаки звукобукв:
оценка (хороший/плохой, округлый/шероховатый и т.п.),
сила (громкий/тихий, могучий/слабый),
подвижность — динамика (подвижный/медлительный и т.п.)
+ Цветовые ассоциации
Частотность звукобукв в речи (А. П. Журавлев)
Пояснение Журавлева
«На ваших листах записана шкала, с помощью которой вы будете оценивать звуки и буквы, которые я буду произносить и показывать. Если вам почему-либо кажется, что данный звук «очень светлый», то вы приписываете ему оценку 1, если кажется, что звук «очень темный», приписываете оценку 5».
Допустим, что в ответах пятидесяти человек по шкале «сильный — слабый» для звука Д встретилось 9 единиц, 34 двойки, 5 троек, 2 четверки и ни одной пятерки (всего 50 анкет).
9 + 34х2 + 5х3 + 2х4 = 100 100 : 50 = 2 (ср. арифм.)
Если большинство информантов поставит какому-либо звуку тройки, то и средняя будет расположена возле этой оценки, т. е. звук окажется «никаким». Тот же результат получится, если выбор каждой оценки окажется действительно случайным: тогда каждая из оценок будет приписана звуку примерно одинаковое число раз, а это в среднем даст оценку, близкую к тройке («никакой»).
Однако средние показатели для большинства звуков и по большинству шкал явно отклоняются от 3,0.
Анализ отклонения
Пока отклонение не достигло половины деления шкалы, средняя еще тяготеет к тройке, а затем уже приближается к значимой оценке. Например, оценки 2,6 или 3,4 ближе к 3,0, чем к 2,0 или 4,0; но 2,4 или 3,6 уже приближаются, соответственно, к 2,0 или 4,0. Значит, границами существенных отклонений логично выбрать 2,5 и 3,5:

Средняя оценка является значимой, когда попадает в одну из зон значимых отклонений. Например, звук А по шкале «хороший — плохой» получил среднюю оценку 1,5. Эта средняя меньше 2,5, следовательно, попадает в зону значимых отклонений, и потому мы можем считать, что звук А большинством говорящих на русском языке оценивается как «хороший».
Развитие идеи: оценка всех звукобукв слова
ЛИК (Л', И, К) по шкале «красивый — отталкивающий»: 1,9; 2,0; 3,4.
(1,9 + 2 + 3,4) : 3 = 2,43
Звукосочетание лик оценивается нами по звучанию как нечто «довольно красивое».
Дополнительные факторы, вводимые в вычисление (частотность звука, место звука в слове, ударение), дают для слова ЛИК показатель, равный 2. Т.е. слово ЛИК оценивается говорящими как красивое.
Примеры оцениваемых слов
Ажиотаж — большой, громкий.
Ахинея — плохой, отталкивающий, низменный.
Балдеж — грубый.
Барыга — грубый, темный.
Военщина — страшный.
Восторг — сильный, величественный, яркий.
Грымза — грубый.
Дрын — большой, грубый, сильный.
Дылда — большой, грубый, медлительный.
Егоза — активный.
Жадина — отталкивающий.
Жлоб — большой грубый, отталкивающий.
Жратва — грубый.
Жуть — плохой, темный, страшный.
Забулдыга — грубый, страшный.
Изящество — нежный.
Карга — грубый, страшный, угловатый.
Кошмар — темный, страшный.
Кощей — страшный, угловатый.
Крах — страшный.
Ласка — хороший, гладкий.
Любовь — хороший, нежный, светлый.
Мелюзга — маленький.
Милашка — нежный, женственный.
Нега — гладкий, безопасный.
Нытик — плохой, печальный.
Обуза — большой.
Очарование — хороший, сильный, красивый.
Пакость — темный, тусклый, печальный.
Печаль — тусклый, печальный, тихий.
Пигалица — маленький, слабый.
Подонок — грубый.
Похабщина — темный, страшный, низменный.
Прохиндей — плохой, отталкивающий, низменный.
Разбой — грубый, активный, страшный, громкий.
Ругань — грубый,громкий.
Смущение — тихий.
Спесь — низменный.
Страшилище — страшный.
Тихоня — слабый, тихий.
Увалень — большой, округлый, медлительный.
Удаль — мужественный, красивый.
Ужас — темный, страшный.
Фанатик — плохой.
Фигляр — плохой, низменный.
Фитюлька — плохой, маленький.
Хам — плохой, грубый, темный, отталкивающий.
Харя — плохой,отталкивающий.
Хиляк — плохой, слабый, хилый, медлительный.
Хлюпик — слабый, медлительный.
Хрыч — плохой, грубый, отталкивающий, злой.
Цаца — плохой.
Чистюля — хороший, светлый.
Чудовище — страшный.
Чушь — низменный.
Шантрапа — плохой, грубый, темный, отталкивающий, низменный.
Щелкопер — низменный.
Экстаз — сильный, яркий.
Юмор — светлый, легкий, безопасный, радостный, добрый.
Развитие идеи
оценка личных имен
По Журавлеву, имена Людмила, Лилия, Лидия, Ирина, Юлия, Александр, Андрей, Борис, Константин потому что звучат красиво и соответственно: женские имена «женственно», мужские — «мужественно».
оценка звукосочетаний, лишенных смысла
оценка заимствований
Развитие идеи: оценка звукобукв текста
Мороз и солнце; день чудесный! Еще ты дремлешь, друг прелестный,— Пора, красавица, проснись: Открой сомкнуты негой взоры Навстречу северной Авроры, Звездою севера явись!
Доминанты: яркий, светлый, радостный, нежный.
Буря мглою небо кроет, Вихри снежные крутя; То, как зверь, она завоет, То заплачет, как дитя, То по кровле обветшалой Вдруг соломой зашумит, То, как путник запоздалый, К нам в окошко застучит.
Доминанты: темный, страшный, сильный, угрюмый, быстрый.
Тарковский, «Сирени вы, сирени…». Фоносемантический расчет А.П.Журавлева, художественная разработка
Статистические методы и генезис языка: глоттохронология, циклические процессы в языке
глоттохронология,
циклические процессы в языке
Генезис языка и его формализация
Математическое моделирование применяют для реконструкции момента появления языка, этапов его развития, периода распада и исчезновения.
Несмотря на сравнительно небольшой объем древних текстов, статистические методы успешно применяются на материале корпусов – в особенности в отношении к текстам XVIII-XXI вв.
Глоттохронология
Метод сравнительно-исторического языкознания для предположительного определения времени разделения родственных языков, основанный на гипотезе, что скорость изменения базового словаря языка остается примерно одинаковой. Гипотеза предложена американским лингвистом Моррисом Сводешом (Morris Swadesh).
Оценка «лексического полураспада» языка, определение периода, за который два или более языка разошлись от общего праязыка, путем подсчёта количества заменённых слов в каждом языке. Затем вычисляется приблизительное время появления этих языков.
Сгласно глоттохронологической гипотезе, в каждом языке особой стабильностью к изменениям во времени обладает некоторое количество одинаковых для всех языков понятий. Эти понятия относят к так называемой «ядерной», «базовой» лексике.
Список Сводеша
(Swadesh list) — инструмент для оценки степени родства между различными языками по признаку схожести наиболее устойчивого базового словаря. Стандартизированный перечень базовых лексем данного языка, приблизительно упорядоченный по убыванию их «базовости» или исторической устойчивости. Минимальный набор «стержневой» лексики содержится в 100-словном списке.
Имеет значение для исследования генеалогии языков, теории перевода и др. направлений.
Список Сводеша для русского языка
Список Сводеша для английского языка
Правила составления
В стандартный список включены слова с наиболее наиболее простыми, очевидными (основными) значениями, не архаизмы и доминанты синонимических рядов. Вопрос критериев.
Ядро словаря было выделено, для того чтобы охватить понятия, присущие каждому человеческому языку (личные местоимения, слова, обозначающие части тела, небесные тела, основные процессы, маркеры количества (один, два и т. п.). В ряде случаев рекомендуется сопровождать запись кратким уточнением значения.
Исключаются понятия, специфические для какой-либо культуры или какого-либо периода времени.
Такой идеал фактически невозможен, а набор значений необходимо соотносить со сравниваемыми языками. Полностью исключить синонимию невозможно, и синонимы неизбежно попадают в список.
Проблема точности выделения списка.
Интерпретация списков
Первоначальная гипотеза: ядро словаря изменяется с почти постоянной скоростью во всех языках и, значит, может применяться для измерения отрезков времени. язык и история.
В списках вычисляется процент родственных слов (слов, имеющих общее происхождение). Чем больше процент родственных слов, тем меньше времени назад предположительно разделились два сравниваемых языка.
К вопросу об оригинальном языковой материале
Опасные проблемы компаративиста. Сравнение генетически неродственных элементов (по С. Старостину):
случайные совпадения (англ. woman – др.-яп. womina, женщина);
слова-идеофоны (кукушка – англ. cuckoo);
прямые заимствования.
Развитие, критика и отрицание метода
Было выяснено, что глоттохронология работает в случае индоевропейских языков, объясняя 87 % всех различий. Также установлено, что она работает для хамито-семитских языков, китайского и некоторых других.
Лишь определённое количество слов может подвергаться подсчёту.
Традиционная глоттохронология предполагала, что язык изменяется с постоянной скоростью.
Вероятность изменения является различной для отдельных слов или выражений).
Языковые изменения происходят из-за социальных и исторических событий, которые не поддаются строгому анализу.
Развитие метода (концепция С. Старостина)
Систематически заимствуемые слова являются нарушающим фактором и должны быть исключены из вычислений. По-настоящему значимым является только «родное» замещение единиц единицами того же языка.
Скорость изменения, в действительности, не постоянна, но зависит от периода времени, в течение которого слово существует в языке (то есть вероятность замены лексемы X лексемой Y возрастает прямо пропорционально прошедшему времени — так называемому «старению слов», эмпирически понимаемому как постепенное «разрушение» первоначального значения слов под весом приобретённых вторичных значений.
Отдельные единицы в 100-словном списке имеют разный уровень стабильности (например, для слова «я» обычно вероятность замены намного ниже, чем для слова «жёлтый» и т. д.).
С. Старостин: постулаты «корневой» глоттохронологии
В каждом языке имеется набор исконных корневых морфем (2-3 тыс.).
Они характеризуются различной частотностью.
Частотность корневой морфемы в языке в данным момент времени есть стабильная величина, не зависящая от характера выбираемого текста.
Все корневые морфемы обладают свойством «старения», т. е. постепенного снижения частоты до нуля, после чего исчезают. Скорость выпадения различных корней не одинакова.
Корневой состав языка распадается с равномерной скоростью (из определенного набора корней за определенный промежуток времени выпадает фиксированное количество).
С. Старостин: выводы по «корневой» глоттохронологии
«Устойчивость корней не зависит от «устойчивости» производных слов.
При отсутствии текстов список Сводеша может быть использован в качестве текста.
Математический аппарат классической лексической глоттохронологии может быть перенесен на корневые морфемы.
Развитие глоттохронологии
При всей критике и отрицании глоттохронологических идей метод сегодня существует и развивается.
Циклические процессы в языке
Модель жизненного цикла языкового знака
Модель жизненного цикла языкового знака (А. А. Поликарпов): общие положения
В основе развития языка лежат циклические микропроцессы, т.е. процессы, происходящие в истории каждой из его единиц – от её зарождения, направленного развития и до вымирания.
Под «жизненным циклом» подразумеваются закономерные изменения, свойственные в виде тенденции каждому языковому знаку – от его рождения до смерти.
Изменения связаны с тем, что знак обладает некоторым потенциалом развития, который постепенно исчерпывается в ходе его коммуникативного обращения.
Набор значений языковых знаков отображает набор смыслов, присутствующих во внутренних мирах носителей конкретного языка.
В связи с традиционными лингвистическими наблюдениями над языком и современными статистическими исследованиями словарей и корпусов можно сформулировать ряд положений (тенденций), связанных с циклическим характером языкового генезиса.
Три параметра языкового знака, связанные с его жизненным циклом
Ассоциативно-семантический потенциал (АСП): общее число значений, которое может быть порождено в течение жизни знака.
Активность: скорость порождения значений.
Стабильность: степень долгожительства значений, которые появляются у знака.
Некоторые положения модели жизненного цикла: полисемия
Тенденция к разрастанию со временем смысловой области каждого значения и к появлению новых значений у знака как частный случай скачкообразного расширения смысловой области материнского значения и автономизации её частей.
Тенденция к абстрактивизации значений знаков в их истории как следствие расширения их смыслового объёма.
Тенденция к повышению относительной частоты употребления каждого последующего значения в истории знака.
Чем каждое последующее значение знака оказывается относительно более абстрактно, тем оно должно быть (в среднем) менее активно в порождении от него последующих значений.
Существует тенденция к постепенному истощению ассоциативно-семантического потенциала любого значения знака и перераспределению этого потенциала между производными значениями знака.
Развитие полисемии: высокий (БТС)
1. Большой по протяжённости снизу вверх; находящийся далеко вверху; превосходящий обычную, среднюю высоту (противоп.: низкий). В‑ая гора. В‑ие облака. В‑ая трава. В. каблук. В. потолок. В. прыжок. В. лоб (большой и открытый).
2. Значительный по количеству, интенсивности, степени проявления и т.п.; превышающий средний уровень, среднюю норму. В‑ая активность. В‑ая производительность труда. В. урожай. В‑ие темпы. В‑ие цены.В‑ое напряжение, давление. В‑ая концентрация вещества. В‑ая чувствительность. В. уровень жизни. В‑ие требования.
3. Очень хороший; отличный. В‑ие оценки. В‑ие достоинства. Показать в. класс. Товары высокого качества. Быть высокого мнения о себе.
4. Выдающийся по значению; почётный, важный. В‑ая награда. В. пост. В‑ая честь. В‑ое звание. В‑ое общественное положение.Оправдать в‑ое доверие. Приветствовать высокого гостя. Вращаться в высоких сферах.
5. Возвышенный, благородный, лишённый корыстных помыслов, чувств. В. порыв. В‑ое чувство. В‑ое искусство. В. идеал. В‑ая цель.
6. Приподнятый, торжественный (о языке, стиле). В. слог.
7. Вызываемый колебаниями большой частоты; тонкий и звонкий (о звуке, голосе). В‑ая нота. В. дискант.
Развитие полисемии: высокий (БТС)
1. Большой по протяжённости снизу вверх.
2. Значительный по количеству, интенсивности
3. Очень хороший; отличный
4. Выдающийся по значению
5. Возвышенный, благородный
6. Приподнятый, торжественный
7. Тонкий и звонкий (о звуке) 1234567
Разрастание смысловой области каждого значения.
Абстрактивизация значений.
Повышению частоты употребления каждого последующего значения.
Чем каждое последующее значение знака оказывается относительно более абстрактно, тем оно менее активно в порождении от него последующих значений.
Постепенное истощению ассоциативно-семантического потенциала любого значения знака и перераспределению этого потенциала между производными значениями знака.
Некоторые положения модели жизненного цикла: процесс развития полисемии
Наложение друг на друга двух процессов – (1) постепенно замедляющегося и останавливающегося в определённый момент процесса появления новых значений и (2) начинающегося позже и тоже постепенно замедляющегося процесса выпадения ранее появившихся значений – приводит к формированию асимметричной кривой развития полисемии знака, с пиком развития полисемии, сдвинутым к началу жизненного цикла знака (см. далее).
Кривая жизненного цикла языкового знака (А. А. Поликарпов, В. В. Поддубный)

Кривая x1(t) — процесс роста числа значений знака, x2(t) — процесс выпадения значений знака из употребления, x(t) = x1(t) − x2(t) — процесс развития активной полисемии знака, t — условное время.
Некоторые положения модели жизненного цикла: длина слова и омонимия
Обратнопропорциональная зависимость между частотой употребления знака и его длиной была замечена Джорджем Ципфом Эта зависимость позволяет носителям языка общаться относительно экономно, затрачивая на производство каждого из самых употребительных знаков относительно меньше усилий.
В связи с ростом частоты употребления знаков в ходе их жизненного цикла и падением их длины должна нарастать вероятность их омонимизации – совпадения по звучанию и/или написанию.
Разрыв связей между значениями слова – источник развития омонимии в языке (среда – среда). Начальные значения знака относительно более конкретны, чем последующие. Вероятность разрыва полисемической цепи (из-за выпадения значения) в начальный период жизни знака существенно выше, чем в каждый последующий. Пик образования лексических омонимов на основе разрыва полисемических связей сдвинут к началу жизни знака.
Некоторые положения модели жизненного цикла: синонимия и антонимия
В связи с абстрактивизацией значений вследствие их старения (и старения знаков в целом) может быть выдвинут и прогноз о повышении, в среднем, вероятности синонимизации значений слов с увеличением их возраста. Ср. синонимию высокий – интенсивный, отличный, важный, тонкий и т. д. на уровне разных значений.
Аналогичная логика позволяет прогнозировать и более активное вхождение в антонимические отношения значений слов с увеличением их возраста. Ср. антонимию высокий – низкий на уровне разных значений.
Некоторые положения модели жизненного цикла: устойчивость лексики
Тип значения: Слова более признаковых частей речи (например, прилагательных и глаголов) в силу более широких значений должны быть более устойчивыми во времени.
Количество значений: Относительно более полисемичные слова также успешнее сохраняются во времени.
Возраст слова: Чем слово древнее, тем, в среднем, более абстрактная семантика свойственна его значениям, и тем большая стабильность свойственна этому слову. Этот, казалось бы, парадоксальный вывод («чем древнее слово сейчас, тем у него больше шансов сохраниться в языке в какой-то момент в будущем в сравнении с более молодыми словами») базируется на факте асимметричного соотношения знаков в человеческих языках по их способности к длительности жизни той или иной степени. Больше всего в каждый данный период в языке рождается слов-однодневок (ср.: кошмарить), несколько меньше тех, что способны к несколько более длительному существованию и т. д. до очень узкой группы слов-долгожителей (вспомним лист Сводеша).
Словообразовательная ступень: Тенденция к меньшей сохранности слов всё более отдалённых ступеней деривации. Лист – листва – лиственный – лиственница – лиственничный.
Некоторые положения модели жизненного цикла: фразеологизация
Тенденция к росту, а потом падению активности свободных значений слов к порождению от них фразеологически связанных значений. С ростом степени абстрактности значений слов всё более значительного возраста, увеличивается широта контекстов употребления каждого из таких значений. В результате в каких-то из этих контекстов слово в одном из таких значений начинает употребляться в особенности часто, что и ведёт в итоге к формированию новой устойчиво употребляемой и далее идиоматизирующейся комбинации слов, фразеологической единицы.
Война: гражданская, мировая, отечественная, холодная, крымская, русско-японская, японская, империалистическая, новая, великая, последняя, ядерная, настоящая, партизанская, франко-прусская, священная, звездная (-ые), тридцатилетняя, большая, минувшая… … гибридная, латентная…
Некоторые положения модели жизненного цикла: замещение лексики
Тенденция к переходу от обозначения частотного смысла словосочетанием к его обозначению словом (сложным, аффиксальным производным, заимствованным, аббревиатурой): зачетная книжка – зачетка, кабинет министров – кабмин, электронное устройство (а теперь и любое приспособление) – гаджет.
Системные тенденции процесса образования новых суффиксально-производных слов [в русском языке] как продолжение системных тенденций лексико-семантических процессов.
Некоторые положения модели жизненного цикла: деэтимологизация
Тенденция к деэтимологизации, семантическому и морфемному опрощению структуры слова. В ходе возможного дальнейшего роста употребительности производного слова носители языка могут утратить, забыть мотивацию морфемного состава слова (после десемантизации некоторых морфем и утраты независимого употребления служебными или предметными словами, генетически соответствующими некоторым морфемам). Т. е. может произойти деэтимологизация, семантическое опрощение, переосмысление некоторой группы морфем в пределах слова как одной морфемы, и, как следствие, опрощение его морфемной структуры.
Примеры: находить, подушка, забыть, зонтик (голл. zondek)…
Апробация модели
Экспериментальные данные, подтверждающие часть этих прогнозов, получены на материале синхронных и диахронических словарей, а также корпусов русского языка.
Ряд фактов нуждается в дополнительной проверке.

Приложенные файлы

  • docx 8951184
    Размер файла: 250 kB Загрузок: 0

Добавить комментарий