refik.in.ua 1

Домашнее задание к занятию 8


КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ

1. Компьютеризация словарной работы

Современная лексикография невозможна без широкой компь­ютеризации. Постепенно традиционные методы заменяются ком­пьютерной обработкой лексикографических данных. Кроме очевид­ной экономии времени, интеллектуальных ресурсов и мн. др. это дает возможность поддерживать точность и тщательность контро­ля лексикографического процесса, оперативно исправлять допу­щенные, ранее не замеченные ошибки, создавать новые лексиког­рафические комплексы.

Компьютер может обеспечивать, по крайней мере, упрощать, многие логические операции, основательно вмешиваться в сам про­цесс создания словаря. Только компьютер может предоставить не­медленный доступ к словнику, набору цитатного материала и т.п., обнаружить несогласованность различных кусков текста словар­ной (-ых) статьи (статей), левой и правой частей словаря, дефини­ций, переводных эквивалентов etc. Компьютер может по желанию лексикографа отслеживать семантические изменения лексемы, сферу ее употребления, фиксировать изменения в деривационном, синтаксическом, грамматическом аспектах описываемой единицы. Компьютер способен расположить словарный материал в любом необходимом лексикографу порядке, выполнить рисунки, схемы, графики с высокой степенью точности.

Очевидные практические преимущества компьютера в созда­нии словарей убедительно и кратко намечает Н. Кальцолари:

- исчерпывающая проверка различного рода ссылок и отсы­лочной информации;

- контроль за полной согласованностью как в терминологии описываемого материала, так и в метаязыке словаря;

- нормализация толкований и дефиниций;

- обеспечение последовательности среди различных кусочков информации;

- возможность избежать дефиниций «замкнутого круга» и т.д. [Calzolari, 1989, с. 519].


Чего не может компьютер, так это предвидеть движений чело­веческого разума, установить тип возможных ассоциаций, вербаль­ных и невербальных реакций на ту или иную информацию. Важно заметить, что компьютер «живет» умом и чувствами лексикогра­фа, который использует его для совершенствования и ускорения обработки данных. Лишь в общении, когда лексикограф и компь­ютер ведут диалог в режиме полного взаимопонимания, машина преображается, она становится незаменимой в процессе создания и использования словаря.

Компьютеризация лексикографической деятельности заклю­чается прежде всего в создании специализированных машинных банков данных и в разработке методов формирования этих бан­ков, представления информации в банках и ее использовании.

Современная лексикография все шире пользуется машинны­ми банками данных, в частности, большими корпусами текстов на магнитных носителях, в которых компьютер по запросу осуществ­ляет поиск нужных слов. На этой основе формируется целое новое направление лингвистики и лексикографии – корпусная лингвис­тика и лексикография.

Создание машинных баз данных для разного рода лингвисти­ческих, в первую очередь лексикографических, работ началось еще в 60-е годы XX в. и прошло два основных этапа. Корпусы первого поколения насчитывали до миллиона словоупотреблений и были реп­резентативными, т.е. набирались по текстам различных жанров уст­ной и письменной речи, каждый из которых был представлен опреде­ленной выборкой. Корпусы второго поколения создаются в результа­те сплошного обследования текстов и по объему превышают корпусы первого поколения на полтора-два порядка [Апресян, 1995, с. 19].

Страны, первыми вступившие на этот путь, к настоящему вре­мени накопили громадные корпусы самых разнообразных источ­ников. Например, английский словарь Collins COBUILD, 1987 опи­рается на корпус в 40 млн словоупотреблений – по 20 млн на лек­сику общего характера и специальную лексику. Крупнейший фран­цузский словарь – Tresor, 1988 – опирается на машинную базу дан­ных объемом в 100 млн словоупотреблений (70 млн словоупотреб­лений, извлеченных из приблизительно одной тысячи крупнейших литературных произведения XIX-XX вв. на основе почти сплош­ной выборки; 20 млн словоупотреблений из научных и научно-по­пулярных текстов; остальное – из современных журнальных, га­зетных и других подобных текстов). Столько же словоупотребле­ний включает Британский Национальный корпус. Существуют исследовательские группы, чья работа уже сейчас опи­рается на корпусы численностью более чем в 360 млн словоупот­реблений.


Качество базы лексикографических данных определяется не только объемом и разнообразием источников, но и развитостью лексикографического сервиса, т.е. количеством услуг, которые она может предоставить. В 1988 г. было завершено новое 20-томное издание Большого оксфордского словаря [Oxford, 1988]. Весь кор­пус словаря хранится в компьютере в виде базы данных, в которой можно осуществлять поиск слов по большинству лексикографи­чески существенных признаков и по любым комбинациям таких признаков. При этом скорость работы машины на несколько по­рядков превосходит скорость работы человека.

Корпусная лексикография развивается и в России. В частно­сти, в рамках осуществляемой с 1983 года в Институте русского языка РАН программы формирования машинных фондов на маг­нитные носители были переведены разнообразные тексты [Апре­сян, 1995, с. 20].

В целях исторического взгляда на проблему машинных бан­ков данных предлагается краткий перечень первых словарей, сде­ланных на основе компьютерной обработки информации:

1956 – Georgetown University Machine Translation Research and Language Projects.

1963 – Webster's Seventh ed.


  1. - Random House Dictionary of the English Language.

  2. - Brown University Corpus of Present-Day Edited American English.

1969 – American Heritage Dictionary.

1973 – Webster's Eighth ed.

    1. - Longman Dictionary of Contemporary English.

    2. - Collins COBUILD English Dictionary.

Б.Ю. Городецкий различает:

а) банки эмпирических данных, которые включают банк созданных ранее словарей и грамматик, фонд наблюдаемых текстов, банк экспериментальных данных и

б) банки рабочих лексикографических результатов [Городецкий, 1986, с. 11-13].

Первые включают наблюдаемые или получаемые в экспери­менте факты (причем главный вид фактов – речевые произведе­ния), и вторые – результаты обработки фактов, т.е. различную сло­варную информацию, пополняемую и уточняемую в ходе работы над проектом словаря.


Банк созданных ранее словарей и грамматик не представляет принципиальных трудностей в плане его формирования, но зато открывает богатые возможности в плане обработки существующих лексикографических трудов с применением компьютера. Как толь­ко словарь попадает в машину, появляется возможность быстро ав­томатически получать новые произведения – вторичные словари.

Фонд наблюдаемых текстов связан с решением фундаменталь­ного вопроса о том, что же, собственно, является объектом модели­рования в лексикографии. Сознательное повышение адекватности словаря по отношению к моделируемой реальности возможно лишь в том случае, если признаем, что объект моделирования в словаре – это всегда некоторый подъязык или комплекс подъязыков.

Банк экспериментальных данных должен опираться на специ­ально разработанную систему экспериментов с целью получения исчерпывающей информации для определенных сегментов словар­ной статьи.

Банк рабочих лексикографических результатов позволяет за­писывать обобщающую информацию, которая организована в со­ответствии с типами создаваемых словарей, их крупных частей. Автоматизированная обработка эмпирических данных может быть нацелена на любые свойства лексических единиц.

Н.Ю. Русова считает лингвистическим обеспечением банка данных:

а) лингвистические средства представления семантики данных: тезаурусы, элементы единиц языка, рубрикаторы, класси­фикаторы и т.п.;

б) средства манипулирования с данными (рабо­чие языки и языки диалога) [Русова, 1991, с. 90].

В терминографии основой автоматизированной системы ин­формационно-терминологического обслуживания являются терми­нологические банки данных.

Под терминологическим банком данных понимается динами­ческая система инвентаризации подъязыка, обслуживающего не­которую информационную область. Эта система включает машин­ное представление терминологических данных и соответствующий набор программ.


По мнению Б.Ю. Городецкого, О.В. Зайцевой и др. [Городец­кий и др., 1988, с. 251], основные типы лингвистических сведений, полезных для разработчиков информационной системы и потен­циально выводимых из терминологического банка, таковы:


      1. частотные инвентари-справочники, в которых каждая еди­ница (слово, словосочетание, морфема) снабжается морфологичес­кой, синтаксической, семантической, прагматической и статисти­ческой информацией;

      2. могут выводиться обобщенные количественные сведения о терминосистеме;

      3. может проводиться анализ связей между терминами.

В принципе терминологический банк данных может быть орга­низован, с одной стороны, как документально-фактографическая информационная система, выдающая сведения о понятиях и тер­минах, их обозначающих, а с другой стороны, как автоматизиро­ванная словарно-справочная информационная система, ориенти­рованная на специальный текст.

Существующие в настоящее время терминологические банки данных в основном ориентированы на решение двух задач:

        1. обеспечение работ по переводу научно-технических текстов, документации;

        2. обеспечение информацией о стандартизированной (реко­мендованной) научно-технической терминологии.

С.В. Гринев и В.М. Лейчик выделяют [Гринев, Лейчик, 1986, с. 2] банки данных, предназначенные:

  • для справочно-информационного обслуживания специали­стов различных областей знания, занимающихся разработкой стан­дартов на технологию и продукцию, составлением учебной и спра­вочной литературы, подготовкой специальных словарей, редакти­рованием научно-технической литературы;

  • для облегчения традиционного перевода научно-технической литературы;

  • для обеспечения автоматизированных систем переработки текста, в первую очередь – систем машинного перевода;

  • для лингвистического обеспечения автоматизированных си­стем информации;


  • для обеспечения терминологических работ, в первую очередь упорядочения и стандартизации терминологии, а также для авто­матизации подготовки и издания терминологических словарей, словников, указателей;

  • для терминологических и лингвистических исследований.

Наиболее известные российские терминологи­ческие банки данных:

а) банк стандартизированных терминов ВНИИКИ России (на его основе реализована АСИТО – Автоматизированная система информационно-терминологического обслуживания);

б) автоматизированный банк данных по системам связи и уп­равления;

в) банк терминов для машинного перевода, который разраба­тывается центром переводов (ВЦП) в Москве;

г) автоматизированная система Машинного фонда русского языка, которая объединяет словарные и текстовые банки данных и имеет в своем составе Терминологический фонд русского языка.

Приведем несколько примеров известных зарубежных терми­нологических банков данных:

NORMATERM – банк стандартизированной терминологии (Франция),

TERMUM – двуязычный банк терминов правительства Канады,

TEAM – многоязычный банк терминов фирмы «Сименс» (ФРГ),

TERMDOC (Швеция),

TERA (Финляндия) и др.

В терминологических банках данных информация о каждом термине заносится в определенное поле записи. В каждом поле за­писывается определенный вид информации – о произношении тер­мина в одном поле, дефиниция – в другом, грамматическая харак­теристика – в третьем и т.д.

В двуязычной лексикографии преимуществом терминологи­ческих банков данных является возможность по желанию пользо­вателя менять язык оригинала и язык перевода.

Кроме того, структура банков данных предоставляет выгодную возможность оперативно вносить исправления в уже занесенную информацию.

В контексте компьютерной лексикографии следует вспомнить о таком виде словарей, как конкордансы. Способность компьюте­ра особым образом идентифицировать отличительные особеннос­ти единиц текста, рассортировать их используется главным обра­зом для изучения учебных и литературных текстов. Для этого важ­нейшим средством является конкорданс – лексикографическое произведение, представляющее собой перечень (свод) всех случа­ев употребления каждого слова в определенном тексте. Каждый случай словоупотребления доказывается информацией о контек­сте, о позиции лексической единицы, о ее словесном окружении.


Конкордансы могут быть использованы: для исследования сочетаемостных возможностей лексических единиц, нюансов значе­ний, в качестве источника для лексикографических иллюстраций того или иного употребления.

Разновидности конкордансов зависят от различного набора параметров: исчерпанность описания, природы заголовочных еди­ниц, типографской верстки, организации контекста, языковой или понятийной точки зрения на исследуемый материал и т.п. Каче­ственно различаются конкордансы типа KWIC (Keyword-In-Context) – ключевое слово в контексте и типа KWOC (Keyword-Out-of-Context) – ключевое слово вне контекста. В последнее вре­мя благодаря компьютерной обработке данных развивается конкордансная лексикография языка писателей, философов, уче­ных [см., например, Crusca, 1971; Hanon, 1974, Spevack, 1968-1975; Engwall, 1984; Русская авторская лексикография, 2003].

Основные проблемы, которые стоят сегодня перед компьютерной лексикографией, обобщенно можно сформулировать следующим образом:


    1. Обеспечение нейтральности лексических и терминологических банков данных с учетом различных лингвистических теорий и воззрений.

    2. Нормализация и стандартизация различных компьютерных словарей.

    3. Адекватность позиций как описания, так и представления данных в словаре.

    4. Свободное распространение данных компьютерных словарей, по крайней мере, в области научных исследований и обучения.

Современные средства автоматизации лексикографической ра­боты позволяют своевременно прослеживать изменения в употребле­нии тех или иных языковых единиц, составлять тексты и текстовые комплексы для многократного использования их в различных целях.

Компьютеризация существенно изменяет не просто стиль рабо­ты лексикографов и повышает эффективность их деятельности, но и позволяет ставить и решать новые задачи, о которых невозможно было бы даже мечтать в рамках традиционной лексикографии.

2. Машинный фонд и национальный корпус русского языка

Началом развития корпусной лексикографии русского языка можно считать осуществление с 1983 г. в Институте русского язы­ка РАН программы формирования машинных фондов.

Машинным фондом русского языка называется программа комплексной информатизации исследований в русистике, разра­ботанная А.П. Ершовым и Ю.Н. Карауловым.

Под комплексной информатизацией научных исследований и прикладных разработок понимается:

1) последовательное оснаще­ние современными вычислительными машинами с перспективой их объединения в единую вычислительную сеть;

2) последователь­ное накопление на машинных носителях и в базах данных главней­ших источников, необходимых для научного изучения языка и осу­ществления прикладных разработок;

3) создание программных средств, необходимых для подготовки научных трудов по филоло­гии и проведения прикладных разработок; развитие прикладных направлений (лексикографии, терминоведения, машинного пере­вода, автоматической обработки данных на естественном языке) как составной части академической и вузовской науки, являющих­ся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки.

В рамках проекта машинного фонда русского языка разраба­тываются девять фондов-составляющих (генеральный словник, словарный, текстовой, грамматический, терминологический, лингвогеографический, исторический, фонетический и лингвистичес­кий программно-источниковый фонды русского языка) и одна про­граммная система – типовой, лингвистический программно-источ­никовый пакет UNILEX.

Средствами комплектации фондов-составляющих являются так называемые лингвистические программно-источниковые па­кеты, т.е. программные комплексы, управляющие крупными лингвистическими источниками. К ним относятся, например, авто­матические конкордансы, автоматические словари, автоматичес­кий вариант «Диалектологического атласа русского языка», ин­формационная система по «Краткой русской грамматике», про­цессоры русского языка и другие средства автоматизации и ин­формационного обеспечения лингвистических исследований и разработок.


В 1985-1996 гг. в машинном фонде русского языка на машин­ных носителях и частично в базах данных накоплены текстовые источники русской литературы ΧΙΧ-ΧΧ вв., главнейшие словари русского языка, «Краткая русская грамматика» (1989), некоторые другие материалы справочного характера, созданы текстовые кор­пусы поэзии, художественной прозы, общественно-политических и технических текстов; разработан программно-источниковый па­кет UNILEX для персональных компьютеров, состоящий из 5 под­систем: подсистемы обработки лингвистических данных общего назначения, текстоориентированной подсистемы, словарной под­системы, телекоммуникативной подсистемы и редакционно-издательской подсистемы. Каждая из этих подсистем может использо­ваться независимо от других.

Национальный корпус русского языка, представленный в Интернете на сайте www.ruscorpora.ru, основан на большом набо­ре текстов русского языка в электронном виде. Корпус задуман как информационно-справочная система, которая может дать представ­ление о языке на том или ином этапе его существования.

Задание: посмотреть, как пользоваться корпусом

Национальный корпус русского языка ориентирован на все­мирно признанные образцы, в том числе Британский нацио­нальный корпус (BNC; http://sara.natcorp.ox.ac.uk). Заметим, что характеристика «национальный» в его названии изначально под­разумевала лишь определенный вариант языка, но теперь приоб­рела терминологическое значение и по традиции переносится на представительные корпуса других языков. Среди корпусов сла­вянских языков, на которые ориентируется наш корпус, отметим Чешский национальный корпус, созданный в Карловом универ­ситете Праги (http://ucnk.ff.cuni.cz).


Национальный корпус имеет следующие особенности:

- он репрезентативен, т.е. содержит большой объем текстов, достаточный для того, чтобы отразить тот или иной период разви­тия языка;

- он сбалансирован: корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (ху­дожественные разных жанров, публицистические, учебные, науч­ные, деловые, разговорные, диалектные и т.п.). Все эти тексты вхо­дят в корпус по возможности пропорционально их доле в языке соответствующего периода;

- он несет лингвистическую разметку: текстам и словам при­писана лингвистически существенная информация [Ляшевская, Плунгян, Сичинава, 2005].

Проект Российской академии наук по созданию национально­го корпуса русского языка был начат в 2003 г. в рамках программы «Филология и информатика». Основными участниками проекта являются Институт русского языка им. В.В. Виноградова РАН (Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.-Петербург), СПбГУ, научные коллективы из Воронежа и Ижевска. Техничес­кую поддержку корпуса осуществляет компания «Яндекс».

Национальный корпус объединяет несколько видов текстовых корпусов:


  • Так называемый основной, или большой, корпус: морфологи­чески размеченные современные русские тексты (с начала XIX в.). В нем выделяется Корпус современных текстов (середина XX – на­чало XIX в.), который уже сейчас доступен в Интернете, и Корпус ранних текстов (XIX в. и первая половина XX в.), который раз­мещен в открытом доступе в конце 2009 года. Основной корпус со­здается специалистами Института русского языка им. В.В. Виногра­дова РАН, ВИНИТИ РАН, Института языкознания РАН и МГУ им. М.В. Ломоносова при участии Санкт-Петербургского университета.

  • Синтаксически размеченный корпус (treebank) ИППИ РАН (около 500 тыс. словоупотреблений).
  • Параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно – между предложениями) с помощью специальной про­цедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выровненными. Выров­ненный параллельный корпус представляет собой важный инст­румент для научных исследований (в том числе и для исследова­ний по теории и практике перевода); он может также использовать­ся при обучении русскому и иностранным языкам. В создании этого корпуса принимают участие Институт русского языка им. В.В. Ви­ноградова РАН, Воронежский и Санкт-Петербургский универси­теты. В настоящее время на сайте Национального корпуса гото­вится к размещению небольшой (около 1 млн словоупотреблений в каждой части) выровненный параллельный русско-английский корпус, подготовленный в Воронежском университете совместно с Институтом русского языка им. В.В. Виноградова РАН.


• Древнерусский корпус XI-XIV вв. На первом этапе работы в данный подкорпус вошли памят­ники древнерусской переводной письменности XI—XII вв. («Жи­тие Андрея Юродивого», «Житие Василия Нового», «Пчела» и др.), снабженные детальной лексико-морфологической разметкой и си­стемой информационного поиска. Тексты помещены в Интернет в 2005 г. Работа над этими текстами ведется в Институте русского языка им. В.В. Виноградова РАН (Москва).

Корпус современного русского языка, по замыслу его созда­телей, планируется в объеме 200 млн словоупотреблений, из кото­рых 100 млн будут представлять тексты 2-й половины XX в., а еще 100 млн – тексты раннего периода, начала XIX в. – 1-й половины XX в. В настоящее время для поиска доступно более 50 млн слово­употреблений [там же].

На основе Национального корпуса русского языка создаются лексикографические произведения различных типов. Например, Частотный словарь современного русского языка (составители – О.Н. Ляшевская и С.А. Шаров) создается на базе текстов 1950-2007 гг., общий объем которых составляет около 100 млн словоу­потреблений.

Необходимость создания такого словаря очевидна. Ппоследний «универсальный» частотный словарь был издан в 1993 г. в Упсале (Швеция) – до него были словари под редакцией Л.Н. Засориной (Москва, 1977) и Э.А. Штейнфельдт (Таллин, 1963). Словарь Г.Г. Йоссельсона (Детройт, 1953) – отражает язык XIX и первой половины XX в. Новый частотный словарь должен представить статистическую картину современного словоупотреб­ления, заполнив, в частности, лакуну последних двух десятилетий, и осуществить мониторинг изменений, произошедших в языке с 1950 г. Однако главные отличия словаря от его предшественников – качественные. Новый словарь будет базироваться на 100-милли­онном корпусе, в то время как предыдущие словари опирались на материал объемом от 400 тыс. до 1 млн словоупотреблений [Ляшевская, 2007].

Автоматизированные лексикографические системы, т.е. сис­темы автоматизации подготовки и использования словарей, вклю­чают в себя программы и справочные данные, необходимые для лексикографической обработки текстов. В них используются тек­стовые редакторы для ввода и коррекции данных, программы конт­роля данных и запросов к системе, программы контроля орфогра­фии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных ста­тей, программы лемматизации и подсчета статистики словоупотреб­лений, программы загрузки, поиска и коррекции данных и др.


Введенные в систему тексты и / или словари размещаются в базах данных и снабжаются словоуказателями и другими индекса­ми, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в которых оно описано. Резуль­татом автоматической обработки текста в автоматизированных лексикографических системах являются частотные словари, кон­кордансы (словоуказатели с контекстами), чаще всего принимаю­щие форму автоматических конкордансов, автоматические моно- и многоязычные словари, размещаемые в базах данных и исполь­зуемые программами лексикографических систем в качестве спра­вочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматические словари используются в системах автоматического перевода, а так­же в информационных системах и системах общения с компьюте­ром на естественном языке в качестве справочников при подготов­ке и расширении словарей и уточнении грамматик этих систем.

В составе лингвистического обеспечения автоматизированных систем различают три группы функций автоматической обработ­ки текста: автоматическое индексирование входных документов, составление поисковых предписаний по тексту запросов и автома­тизированное ведение словарей системы. Ядром лингвистическо­го обеспечения автоматизированных информационных систем яв­ляются информационно-поисковые тезаурусы, в терминах кото­рых производится индексирование вводимых в систему текстов и запросов на их поиск. Индексирование текста заключается в со­ставлении к нему поискового «образа», в котором указываются понятия, описываемые в тексте, и отношения между ними. Анало­гично обрабатываются и запросы к системе. Сравнением поиско­вых предписаний с поисковыми образами документов осуществ­ляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам.


Особую актуальность сейчас приобретает ма­шинный перевод – компьютеризированная обработка лексичес­ких баз данных в аспекте переводной лексикографии. Подбор переводных эквивалентов осуществляется на полностью авто­матизированной основе. Переводчик-лексикограф освобождает­ся от рутинной механической работы, он приходит на помощь машине лишь как участник творческого процесса рождения пе­реводного словаря.

Как известно, первые работы по автоматизации перевода по­явились в США в начале 50-х годов XX в. Первый публичный экс­перимент по автоматическому переводу был проведен в Джорджтаунском университете в 1954 г. В середине 50-х годов работы на­чались во многих странах, в том числе и в СССР: в 1954 г. в Москве начали работать группы И.К. Вельской и Д.Ю. Панова (англо-рус­ский перевод) и А. А. Ляпунова и О.С. Кулагиной (французско-рус­ский перевод).

В настоящее время в разных странах создано большое количе­ство экспериментальных и практических систем автоматического перевода. Из коммерческих систем наиболее распространена SYSTRAN, для которой известно около 15 версий для разных пар языков. Все эти версии снабжены большими словарями (например, в словаре для пары «русский – английский» 200 тыс. слов общей лексики и 200 тыс. терминов). Перевод, полученный в результате использования этой системы, требует существенного редактирова­ния. Работают также системы ATLAS, LOGOS, LITRAS и др.

Примерно к 1995 г. появились коммерческие системы автома­тического перевода в России, например система англо-русского (и обратно) перевода STYLUS, комплект переводческих программ ЛЕКСИКОН, серия систем машинного перевода SILOD-MULTIS, созданная в Российском государственном педагогическом универ­ситете им. А.И. Герцена (Санкт-Петербург) и др.

С 70-х годов наблюдается тенденция к интеграции всех подхо­дов к конструированию систем автоматической обработки текста в рамках конструирования искусственного интеллекта – направ­ления в информатике, связанного с созданием сложных человекомашинных и робототехнических систем, моделирующих человечес­кую деятельность в различных сферах и предметных областях. В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и ис­точником данных для выбора ее поведения, а также средством вза­имодействия системы с человеком. Здесь функции редактирова­ния все больше сливаются с функциями содержательной обработ­ки, образуя единый аппарат понимания текстов.


Компьютеризация открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требую­щих затрат прежде всего интеллектуального труда, таких как редакционно-издательские процессы, извлечение информации из тек­стов, медицинская и техническая диагностика, экспертная деятель­ность, проектирование машин и сооружений, изготовление проектной документации, управление социально-экономическими системами. Во всех этих случаях автоматическая обработка тек­ста играет первостепенную роль.

Однако в таких массовых «промышленных» применениях ав­томатическая обработка текста должна опираться на мощную ин­формационную поддержку в виде автоматизированных словарных картотек, автоматических словарей, грамматик и других форм пред­ставления лингвистических данных в компьютере. Разработка та­ких систем приобретает форму машинных фондов национальных языков (например, Машинный фонд русского языка, Машинный фонд украинского языка), национальных автоматизированных лек­сикографических служб и т.п.

Безостановочное развитие компьютерных технологий подска­зывает необходимость полной компьютеризации словарных иссле­дований. И это подтверждают сейчас новые направления лексиког­рафии: создание словарных картотек на основе компьютерных баз данных, электронное построение словарных статей и автоматичес­кая обработка лексического материала, составление печатных сло­варей на компьютерной основе и создание собственно электрон­ных словарей (без их бумажных аналогов) и мн. др.
3. Электронные словари

Электронными словарями называют часть автоматизированной систе­мы интеллектуального назначения с собранными и определенным образом упорядоченными наименованиями понятий в той отрас­ли, с которой работает или на которую опирается эта автоматизи­рованная система.

Электронные словари создаются как конечная дискретная от­крытая структура с автоматическими возможностями восприятия выходных сигналов, организации своей работы и оформления ре­зультатов и сообщения их пользователю.


На любом этапе функционирования электронный словарь мож­но дополнять и при необходимости структурно совершенствовать без существенной перестройки. Как правило, они вмещают сово­купность терминов и терминологических словосочетаний, систе­матизированных и поданных в виде таблиц, семантических сеток или семантических деревьев.

Электронные словари предназначены для внутримашинного поиска необходимой и имеющейся в системе информации и целе­направленных операций над материалом баз данных, а также над материалом, предлагаемым пользователю для обработки.

В основном электронные словари узкоспециальны. На сегод­ня в России различными фирмами и лабораториями машинного перевода созданы электронные словари по многим отраслям на­уки и производства: вычислительной технике, химии, физике, тех­нологии и обработке металлов, менеджменту и т.п. Они использу­ются в системах машинного перевода и системах общения с компьютером на естественных языках в качестве справочников во время подготовки и расширения словарей, а также уточнения грам­матик этих систем.

При заголовочных единицах электронных словарей рекомен­дуется подавать морфологические и синтаксические характерис­тики, ремарки предметно-тематической классификации лексики, дефиницию, иллюстрации словоупотребления, паспортизацию примеров, указания на отношения между заголовочными и иноя­зычными эквивалентами. В современных электронных словарях делаются попытки объединить в одной словарной статье элемен­ты толкового словаря с элементами многоязычного переводного.

В одноотраслевых электронных словарях алфавитный поря­док словарных статей необязателен: благодаря высокой скорости машин поиск и нахождение заголовочного слова и иноязычных эквивалентов реализуются в доли секунды. В машинных фондах языков, где электронные словари сориентированы на обработку многотомных текстов и складываются из нескольких сот тысяч словарных статей, целесообразным является не только их упоря­дочение по алфавиту, а и алфавитные показатели переводных эк­вивалентов.


Отраслевые электронные словари и словари машинных фон­дов языков создаются в качестве нормативных словарей современ­ных литературных языков. Составление отраслевых электронных словарей машинных фондов русского языка требует огромной ра­боты по стандартизации современной терминологии всех отраслей науки, техники, производства и культуры.

Именно развитие компьютерных словарных исследований, наряду с глубокими традиционными лингвистическими и переводоведческими открытиями, определяет широкие перспективы рус­ской лексикографии.
Литература

Calzolari N. Computer-Aided Lexicography: Dictionaries and Word Data Bases // Computational Linguistics / Ed. By E.S. Batori, W. Lenders, W. Putschke. – Berlin; N. Y., 1989. P. 510-519

Апресян Ю.Д., Богуславская О.Ю., Левонтина И.Б., Урысон Е.В. Но­вый объяснительный словарь синонимов: Проспект. – М., 1995.

Городецкий Б.Ю. Принципы компьютеризации лексикографической деятельности // Подготовка и использование научно-технических слова­рей в системе информационного обеспечения. – М., 1986. С. 11-13.

Русова Н.Ю. Терминоведение и терминологические банки данных // Термины в структурно-семантическом и функциональном аспектах. – Н. Новгород, 1991. С. 88-95.

Городецкий Б.Ю. и др. ТБД – новая технология словарного дела // Теория и практика научно-технической лексикографии. – М., 1988. С. 250-259.

Гринёв С.В., Лейчик В.М. Функциональная и структурная содержа­тельная типология банков терминологических данных как фактографи­ческих АИПС // НТИ. 1986. № 10. Сер. 2. С. 2-4.

Ляшевская О.Н., Плунгян В.Α., Сичинава Д.В. Национальный корпус русского языка как инструмент лексикографа // Vocabulum et vocabu­larium. Слово и словарь / Отв. ред. Л.В. Рычкова. – Гродно, 2005.

Ляшевская О.Н. О частотном словаре национального корпуса русского языка // Vocabulum et vocabularium. Слово и словарь / Отв. ред. Л.В. Рыч­кова. – Гродно, 2007.