Вычислительная лексикография в работах Ю.Н. Мар..


Словарь в системе машинного перевода играет ведущую роль. Если грамматический анализ для МП уникален, то в части словаря накоплен большой опыт автоматической обработки текстов, который позволяет сформулировать основные черты вычислительной лексикографии.
Чтобы утверждать, что вычислительная лексикография представляет собой особую науку, а не является отдельной областью уже определившихся наук, рассмотрим сначала объект исследования вычислительной лексикографии – машинные словари.
Вычислительная лингвистика занимается преимущественно методами автоматического анализа и синтеза, морфологией, синтаксисом, семантикой и лишь в незначительной степени словарями, обычно в той мере, в какой тот или иной словарь необходим для работы алгоритма. Вопросы вычислительной лексикографии как таковой редко ставились в научной литературе. Межу тем многие ученые неоднократно обращали внимание на тот факт, что машинный словарь в системе автоматической обработки текстов моделирует многие важные функции человеческого интеллекта и поэтому изучение словарей имеет самостоятельное значение.
Предметом вычислительной лексикографии является изучение способов построения и использования машинных словарей естественных языков.
Вычислительную лексикография подразделяется на механизированную и машинную. В механизированной машинный словарь представляет собой словарь обычный, только в иной физической форме: к механизированной лексикографии можно отнести все виды использования механических и автоматических средств для помощи в обычной лексикографической работе. В машинной лексикографии машинный словарь используется как орудие автоматической обработки текстов с определенными целями, он есть часть системы такой обработки.
Механизированная лексикография в использовании словарей не имеет принципиальных отличий от лексикографии обычной. Машинная лексикография действует в пределах науки информатики и подчиняется закономерностям последней.
Главной смысловой особенность. Информатического текста является его справочный характер. Информатический текст не должен содержать ошибок в калькуляции сведений или в точности извлечения сведений из исходного документа. Но информатический текст не может рассматривать содержание исходного документа с точки зрения его отношения к действительности, оценивать содержание исходного документа. Поэтому в информатический текст не входят все фигуры стиля документа, его риторическая установка.
Построением информатических текстов в указанном смысле занимаются информационно-поисковые и информационно-логические системы. В той мере, в какой естественный текст, подвергнутый машинному переводу, должен удовлетворять требованиям информационного, соответствующие задачи должны решаться и алгоритмом МП. Это делает МП задачей гораздо более сложной, чем прочие лингвистические задачи прикладного характера.
Создание адекватной для МП грамматики и словаря безусловно равноценно созданию цельной теории языка или его модели, в случае, однако, если это создание охватывает не фрагмент языка, а достаточно широкую языковую область и позволяет осуществить обработку большого массива текстов.
В вычислительной лексикографии можно отметить общие методы, объединяющие ее с лексикологией и лексикографией, а также с другими науками лингвистического цикла, и частные методы, обусловленные спецификой лингвистических вычислений. Из общих методов наибольшее значение имеет использование языка-эталона для описания значений слов. Практическое применение этого метода имеет место в теории детерминант. Среди частных методов важно использование билингв. Кроме того, последнее время больше внимания стало уделяться вопросам математического моделирования словаря.
Метод билингв имеет широкое применение в виде использования параллельных текстов для составления словарей и словников. В качестве примера можно рассмотреть составление семантических частотных словарей. Состав словника при этом во многом зависит от выбранной методики выделения единиц перевода в исходном и переводящем тексте. При составлении англо-русского семантического частотного словаря по радиоэлектронике единица перевода была определена как минимальный отрезок исходного английского сегмента (слово или словосочетание), для которого в соответствующем русском сегменте нет лексических единиц, передающих лексическое значении составных частей выделенной единицы перевода, если она является словосочетанием. Это рабочее определение исходит из понятия сегмента.
Математическая модель словаря исходит из идеализированных представлений о словаре как некоторой структуре, задающей отношения порядка на множестве слов. Сравнительно с другими объектами математической и вычислительной лингвистики словарь лишь недавно стал объектом математического моделирования. Природа множества, на которых словарь задает отношения порядка, может быть различной. Словарь может рассматриваться и как структура, упорядочивающая буквенные комбинации, и как структура, строящая отношения между элементами смысла, выраженными словами и словосочетаниями.
Оценивая технологические возможности математической теории словаря, следует признать, что здесь еще не получено таких результатов, пользуясь которыми можно было бы оценивать проектируемые или имеющиеся словари по существенным для них содержательным лингвистическим параметрам.
В математической теории тезауруса можно выделить два направления. В первом из них формализуется одна сторона функционирования тезауруса, а именно классификационная. Тезаурус рассматривается как система, реализующая иерархическую классификацию фактов (Dagobert, 1972). Исходной позицией при этом служит требование о минимальной сложности индексирования. Для каждого элемента смысла тезаурус дает ряд последовательно уточняемых координат (Овчиников, 1977). Другие направление отражает смысловую структуру тезауруса. Всякое отношения типа сходства может быть задано набором канонических признаков. Эти признаки естественно отождествлять с «элементарными смыслами». Таким образом, описание группы родственных по смыслу слов (семьи) равносильно заданию множества пар слов и множества элементарных смыслов. Вопрос о том, между какими парами имеет сходство, выходит за рамки математический модели и решается информантом. Важно то, что при таком подходе система признаков и тем самым «элементарных смысловых единиц» определяется выбором подмножества допустимых пар и установлением сходства на парах. Затем уже эти элементы смысла могут получать содержательные наименования (Шрейдер, 1971).
Этот подход противостоит другому, при котором заранее априорно, выделяются элементарные смыслы и уже в терминах этих элементарных смыслов описаются свойства слова. Априорное выделение таких семантических параметров неудобно для описания имеющегося словарного материала. П.Н. Денисов показывает, что для толкования 2996 слов с позиции априорного моделирования требует 7262 других слова (Денисов, 1974). С самых общих позиций метод предварительного жесткого деления семантического полня на составляющие, а в этом и заключается идея комбинаторного моделирования, противоречит принципу скользящего и переменного описания семантики, меняющейся диалектически в подъязыках и аспектах общения.
Теория вычислительной лексикографии стоится на тех же основных положения, что и теория лексикографии в целом как языковедческой науки: абстрактные теоретические объекты лексикографии суть понятия инварианта, образца или типа словаря, максимальной или минимальной лексической системы, универсальной структуры словарной статьи, дефиниции, дескрипции слова и т.п. Однако эта теория содержит также положения, специфические для лексикографии вычислительной как дисциплины, связанной с кибернетикой и информатикой.
Специфические положения, лежащие в основе теории вычислительной лексикографии:
соотношение словаря и алгоритма автоматической обработки текстов;
типология машинных словарей в машинной и механизированной лексикографии с противопоставлением общих для них и специальных для каждой типов словарей;
представление о языке как много уровневой иерархической системе, основным назначением которой является коммуникация. Эта система допускает постепенную расшифровку основных черт, релевантных коммуникации. Такое представление лежит в основе использования приближенных методов вычислений применительно к проблемам лексикографии и составления машинных словарей.
Словарь является статическим собранием языковых фактов; с этими фактами оперирует механизм – алгоритм решения конкретной задачи. Разделение описания и алгоритма валяет также на структуру машинного словаря. Машинный словарь может иметь разный объем информации к лексическим единицам. П. Гарвин, автор системы МП «Фулькрум», делит системы МП в зависимости от соотношения словаря, алгоритма и грамматического описания на двучленные и трехчленные (двучленная система состоит из машинного словаря и алгоритма, а трехчленная – из словаря, алгоритма и отдельной таблицы грамматических правил). Грамматическая информация может располагаться либо в специальных таблицах, либо в словарных статьях. Объем словарной статьи, в которую вносятся сведения о синтаксических особенностях, модели управления, лексической сочетаемости и др. чрезвычайно возрастает.
Типологию словарей механизированной лексикографии целесообразно строить по видам лексикографической работы, в результате которой получаются те или иные словари на ЭВМ. Обработка текстов в помощью ЭВМ происходит в тесном взаимодействии человека с машиной.
Машинные словари можно классифицировать по различным признакам. Самой общей классификацией является классификация по двум основаниям: - по характеру лексических единиц, включенных в словарь, и по принципу упорядочения в нем лексических единиц, т.е. по способу организации словаря. По характеру лексических единиц мы делим словари на: 1) словари основ; 2) словари словоформ; 3) словари оборотов. По способу организации словаря машинные словари подразделяются на: 1) частотные; 2) алфавитные (прямые и обратные); 3) словари тезаурусы; 4) словари-конкордансы; 5) специальные словари, к которым можно отнести, например, автоматический контекстологический словарь для перевода многозначных слов. Машинная и механизированная лексикография отличаются лишь некоторыми разновидностями из перечисленных выше словарей. Так, в рамках той или другой используются частотные словари, алфавитные, конкордансы и пр. Разница, однако, в принципиальной конечной цели, которой служит словарь. В механизированной лексикографии словарь служит конечной целью исследования. С помощью ЭВМ получаются некоторые данные о лексическом составе текстов или лексических характеристиках языка. В машинной лексикографии машинный словарь используется как орудие автоматической обработки текстов, с его помощью добываются некоторые новые данные.

Приложенные файлы

  • docx 10888101
    Размер файла: 19 kB Загрузок: 0

Добавить комментарий