<<
>>

Компьютерные технологии в филологии

  Компьютерные технологии получили широкое распространение в филологии. Без помощи компьютера сейчас практически не проводятся исследования. Это и внешние, прагматические операции: сканирование, набор текста, его коррекция, редактирование и т.д., — и некоторые внутренние операции, связанные с процессом выборки, систематизации материала, статистического его анализа и др.
Изменился процесс подбора и анализа материалов из различного вида текстов. Для этого можно использовать поисковые системы, различные средства сортировки материала. Облегчает работу и наличие электронных библиотек, словарей, справочников в Интернете. Интернет предоставил огромные возможности для работы с исследованиями по тем или иным проблемам. Цифровая обработка и размещение на специальных сайтах электронных копий рукописей, редких книг дало исследователям возможность пользоваться теми материалами, доступ к которым раньше был возможен только в архивах. У филологов появилась возможность оперировать большими массивами информации.

В то же время одной из главных проблем электронных библиотек является качество представленной в них информации. Генеральный директор Фундаментальной электронной библиотеки «Русская литература и фольклор» К.В. Вигурский, говоря о современных Интернет-ресурсах, отмечает, что «в большинстве своем созданные системы не выдерживают критики. К основным недостаткам следует отнести стихийность формирования информационных фондов, низкое качество и ненадежность предоставляемой информации, отсутствие необходимых сервисов для работы с информацией. В большинстве случаев невозможно установить, по какому источнику воспроизводится текст; тексты изобилуют ошибками, содержат исковерканные формулы, имеются пропущенные фрагменты и т.п.» (34).

Одна из причин низкого качестве представленной в электронных библиотеках информации в том, что в процессе их формирования на начальном этапе практически не принимали участие профессиональные ученые филологи.

Большинство электронных библиотек создается энтузиастами-любителями. Так, например, создатели крупных электронных библиотек Максим Мошков, Дмитрий Грибов, Владимир Никонов по профессии — программисты. Пользоваться большинством таких любительских электронных библиотек в научных и образовательных целях можно только избирательно, с установкой на то, что используемый текст необходимо будет сверять с текстом, напечатанным в авторитетном издательстве.

В России в настоящее время ведется активная работа по созданию сетевых информационных систем, которые могли бы удовлетворять потребностям филологов-специалистов. Один из наиболее значимых проектов — Фундаментальная электронная библиотека «Русская литература и фольклор» (feb-web.ru). В ней в электронном виде представлена текстовая, звуковая, изобразительная информация в области русской литературы XI—XX веков и русского фольклора, а также истории русской филологии и фольклористики. В описании библиотеки говорится: «ФЭБ представляет собой, во-первых, репозиторий текстов (источников, исследовательской и справочной литературы), а во-вторых, эффективный инструмент для их анализа. Электронная форма представления информации и современное программное обеспечение предоставляют исследователям и читателям качественно новые, по сравнению с традиционными, средства работы с огромными информационными массивами» (см.: http://feb-web.ru/feb/feb/about1.htm).

Основные особенности Фундаментальной электронной библиотеки —качество отбора, академическая точность воспроизведения текстов, ориентация на профессионального филолога. Библиотека снабжена разнообразными средствами навигации и поиска: именными и предметными указателями, библиографической базой данных, возможностью поиска по ключевым словам или фразам. Создатели библиотеки делают установку на строгое и точное воспроизведение структуры оригинального печатного издания. К.В. Вигурский и И.А. Пильщиков отмечают: «И по составу, и по представлению информация должна быть подготовлена так, чтобы удовлетворять, прежде всего, потребности специалистов.

Когда человек входит в раздел «Пушкин» — он находит основное и безусловное, что «покрывает»... программы филологической направленности (конечно, мы не сможем дать все). Мы стремимся к тому, чтобы человеку, работающему по конкретной теме в нашей электронной библиотеке, где бы он ни находился географически, не нужно было проверять, сравнивать, дозаказывать книги. В нашей библиотеке по каждому «титульному» автору представлены несколько изданий полных собраний сочинений, разные комментарии, разные редакции, сопроводительная литература» (35).

Главное, на наш взгляд, достижение филологов, работающих над формированием Фундаментальной электронной библиотеки, — разработка и реализация принципов, которые могут стать основанием для создания электронных библиотек в будущем. Это

следующие принципы: соответствие современному научному уровню; полнота представления информации, необходимая и достаточная для проведения научных исследований: пользователь электронной библиотеки должен иметь в своем распоряжении такой объем материалов, который позволил бы ему проводить научные исследования, не прибегая к иным источникам информации; точность воспроизведения исходной информации: все источники воспроизводятся с максимальной полнотой (основной текст, иллюстративный ряд, служебные страницы), с сохранением структуры и пагинации оригинального издания, во всех случаях сохраняются орфография и пунктуация источников, а также их графика (за отдельными исключениями графики шрифтов); все включенные в электронную библиотеку издания должны быть снабжены точными библиографическими описаниями; наличие развитой системы поиска информации (см.: сайт feb-web.ru).

Большие возможности дает использование Национального корпуса русского языка (ruscorpora.ru). Это информационно-справочная система, основанная на собрании текстов на русском языке в электронной форме. Цель создания национального корпуса — представить русский язык XVIII — начала XXI века во всем многообразии жанров, стилей, территориальных и социальных вариантов и т.п.

Как отмечают создатели Национального корпуса русского языка, он предназначен «для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях» (см.: сайт ruscorpora.ru).

Структура национального корпуса русского языка в настоящее время представлена следующими разделами: основной корпус — письменные тексты XVIII — начала XXI века; синтаксический корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей); газетный корпус — статьи из средств массовой информации 1990—2000-х годов; параллельные корпусы, в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка.

В настоящее время для поиска доступны англо-русский, русско-английский, немецко-русский, украинско-русский и русско-украинский параллельные корпуса; корпус диалектных текстов; корпус поэтических текстов; обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка; корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов; акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов); эти тексты доступны для поиска по месту ударения и просодической структуре слова; мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т.п.).

Больших результатов достигли и системы машинного перевода. Программы-переводчики (Stylus, Promt и др.) в настоящее время успешно справляются с задачами, связанными с необходимостью быстро понять общий смысл документа на иностранном языке или проанализировать многоязычную информацию в Интернете. Поэтому филологи должны обращаться к этим фондам информации.

Ученые активно разрабатывают формы и способы работы с компьютерными технологиями в филологии. Так, например, А.А. Татевосян предлагает специальный курс для магистров филологии «Компьютерные технологии в филологии», связанный с задачами ознакомления студентов с предназначенными для филологов ресурсами: электронными библиотеками, информационными проектами, базами данных; методами автоматического анализа текста на морфологическом, синтаксическом и семантическом уровнях; изучением соответствующих программных средств, форм использования компьютерных технологий в филологическом образовании.

Программа курса представлена на сайте РоссийскоАрмянского университета (http://www.rau.am). Здесь мы приводим ее часть, связанную с предложениями по работе филологов с ресурсами Интернет и современным программным обеспечением. Особенность этой программы в том, что автор опирается на хорошо разработанные зарубежные технологии, применяемые во всем мире.

Предполагаемое знакомство с электронными библиотеками художественной литературы и научных изданий, с филологическими информационными проектами по созданию электронных словарей различного типа, научно-справочных и исследовательских баз данных опирается на научно-образовательный портал «Лингвистика в России: ресурсы для исследователей» (http://uisrussia.msu.ru/linguist/index.jsp), проект РАН и Института языка им. В.В. Виноградова «Этимология и история русского языка» (http://etymolog.ruslang.ru); проект филологического факультета МГУ «Русская фонетика» (http://www.philol.msu.ru/rus/ galya-1/index1.htm), электронные научные издания различных разделов Фундаментальной электронной библиотеки (ФЭБ) «Пушкин», «Лермонтов», «Толстой», «Русская литература и фольклор» (http://feb-web.ru), Конкордансы всех произведений Ф.М. Достоевского, В.И. Даля (http://www.philolog.ru) и др.

Предлагается знакомство с ресурсами, предназначенными для атрибуции литературных произведений: информационная система «Статистические методы анализа литературного текста» (http://smalt.karelia.ru/index.html); Лингвоанализатор (http://www.rusf.ru/books/ analysis/history.htm).

Важно знать о существовании компьютерных технологий обработки данных: программ анализа и лингвистической обработки текстов — Russian Morphological Dictionary (программа для синтаксического и морфологического анализа русскоязычных текстов); программных продуктов фирмы LingSoft (компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков); программных продуктов АОТ (автоматической обработки текста): модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, система синтаксического и фрагментационного анализа для русского и немецкого языков, система первичного семантического анализа. А.А. Татевосян обращает внимание на синтаксический анализатор естественного текста на русском языке (http://syntax.ru) — программу, обрабатывающую предложения с большим количеством слов (100 и более); склонятель — программу для склонения наименований на русском языке; программу WordStat — утилиту подсчета частоты встречаемости различных слов в текстовых или html-файлах.

Филолог может пользоваться программами, осуществляющими машинный перевод. Это «Мультитран» (http://www.multitran.ru) — система автоматического перевода, поддерживающая русский, английский, немецкий, французский и испанский языки, предоставляющая возможности алфавитного, морфологического и фразового поиска; «Promt» — онлайн переводчик, интегрирующий возможности технологий Translation Memory и машинного перевода, поддерживает русский, английский, немецкий, французский, испанский и другие языки.

Интересными для филологов могут быть генераторы текстов: тест Тьюринга, программы — эмуляторы искусственного интеллекта Chat Master, Nai (nus artificial intelligence) и другие русскоязычные самообучающиеся программы, ведущие контекстно-зависимый диалог. Scott Pakin's automatic complaint-letter generator — генератор письменных жалоб Скотта Пейкин (генерирует тексты жалоб на заданную персону или организацию); Russian Word Constructor (RWC), программа, конструирующая русские неологизмы на основе словаря с лексико-статистической информацией о языке и др.

Следует знать и о существовании программ, обеспечивающих стилистический анализ, например, Fresh Eye — утилиты для выбраковки расположенных близко в тексте фонетически и морфологически сходных слов; «Худломера» — программы, осуществляющая автоматическую классификацию функционального стиля текста на основе спектров длин слов и др.

А.А. Татевосян уделяет особое внимание использованию компьютерных программ и Интернета в филологическом образовании. В программе курса предлагается рассмотреть системы дистанционного обучения: кейс-технологии, интегрированные обучающие среды WebCT и LearningSpace, неинтегрированные программные пакеты для создания упражнений, проведения тестирования, организации работы в группах и поддержки интерактивного обучения.

Рассматриваются гипертекстовые системы: World Wide Web — гипертекстовая система, основанная на клиент-серверной архитектуре и работающая на Интернет, Hyper Wave — система управления документами Web в больших информационных пространствах; Microcosm — открытая гипермедиа система для разработки онлайновых учебников, справочников и документации; Storyspace — система, поддерживающая процесс написания гипертекстовых произведений («писательская среда»); WebThing — объектно-ориентированная гипертекстовая система, спроектированная для совместной авторской работы. Все программы снабжены инструкциями по их использованию (подробнее см.: 105). 

<< | >>
Источник: Штайн К.Э., Петренко Д.И.. Филология: История. Методология. Современные проблемы. Учебное пособие. 2011

Еще по теме Компьютерные технологии в филологии:

  1. Компьютерные технологии обучения
  2. Проектирование средствами современных компьютерных технологий. Межпредметный проект «Didakt-Soft World» - «Мир комфортного образования» Р.В.СЕЛЮКО
  3. «Виртуальная реальность», или Педагогические возможности игровой эстетической компьютерной среды в курсе «Компьютерная графика и анимация» Елена ХРАМЦОВА
  4. 2. Филология и лингвистика.
  5. ГОМЕР И КЛАССИЧЕСКАЯ ФИЛОЛОГИЯ
  6. Штайн К.Э., Петренко Д.И.. Филология: История. Методология. Современные проблемы. Учебное пособие, 2011
  7. ПРОБЛЕМА ТЕКСТА В ЛИНГВИСТИКЕ, ФИЛОЛОГИИ И ДРУГИХ ГУМАНИТАРНЫХ НАУКАХ
  8. Нина Мечковская Кирилло-мефодиевское наследство в филологии ЗТашя ОН/гойоха и библейская герменевтика Франтишка Скорины
  9. 1. Компьютерные преступления
  10. 5. Компьютерно-техническая экспертиза
  11. 13.7. Компьютерное тестирование
  12. Федотов Н.Н. Форензика — компьютерная криминалистика, 2007
  13. ВОЛШЕБНЫЕ СТРАНЫ Компьютерные двойники
  14. ВОЛШЕБНЫЕ СТРАНЫ Компьютерная демократия Монтландии
  15. Компьютерный центр Сената
  16. 4. Возможности говорящих компьютерных программ
  17. Компьютерная графика и анимация Е.Э. ХРАМЦОВА, О.А. СУСЛОВА, Н.Э. БАСИНА
  18. Глава 21 В ПОИСКАХ ВЫХОДА: КОМПЬЮТЕРНЫЙ ТОТАЛИТАРИЗМ
  19. О КОМПЬЮТЕРНЫХ ПРЕСТУПЛЕНИЯХ И ИХ ПОСЛЕДСТВИЯХ ДЛЯ ЧЕЛОВЕЧЕСТВА