Компьютерные технологии в филологии
В то же время одной из главных проблем электронных библиотек является качество представленной в них информации. Генеральный директор Фундаментальной электронной библиотеки «Русская литература и фольклор» К.В. Вигурский, говоря о современных Интернет-ресурсах, отмечает, что «в большинстве своем созданные системы не выдерживают критики. К основным недостаткам следует отнести стихийность формирования информационных фондов, низкое качество и ненадежность предоставляемой информации, отсутствие необходимых сервисов для работы с информацией. В большинстве случаев невозможно установить, по какому источнику воспроизводится текст; тексты изобилуют ошибками, содержат исковерканные формулы, имеются пропущенные фрагменты и т.п.» (34).
Одна из причин низкого качестве представленной в электронных библиотеках информации в том, что в процессе их формирования на начальном этапе практически не принимали участие профессиональные ученые филологи.
Большинство электронных библиотек создается энтузиастами-любителями. Так, например, создатели крупных электронных библиотек Максим Мошков, Дмитрий Грибов, Владимир Никонов по профессии — программисты. Пользоваться большинством таких любительских электронных библиотек в научных и образовательных целях можно только избирательно, с установкой на то, что используемый текст необходимо будет сверять с текстом, напечатанным в авторитетном издательстве.В России в настоящее время ведется активная работа по созданию сетевых информационных систем, которые могли бы удовлетворять потребностям филологов-специалистов. Один из наиболее значимых проектов — Фундаментальная электронная библиотека «Русская литература и фольклор» (feb-web.ru). В ней в электронном виде представлена текстовая, звуковая, изобразительная информация в области русской литературы XI—XX веков и русского фольклора, а также истории русской филологии и фольклористики. В описании библиотеки говорится: «ФЭБ представляет собой, во-первых, репозиторий текстов (источников, исследовательской и справочной литературы), а во-вторых, эффективный инструмент для их анализа. Электронная форма представления информации и современное программное обеспечение предоставляют исследователям и читателям качественно новые, по сравнению с традиционными, средства работы с огромными информационными массивами» (см.: http://feb-web.ru/feb/feb/about1.htm).
Основные особенности Фундаментальной электронной библиотеки —качество отбора, академическая точность воспроизведения текстов, ориентация на профессионального филолога. Библиотека снабжена разнообразными средствами навигации и поиска: именными и предметными указателями, библиографической базой данных, возможностью поиска по ключевым словам или фразам. Создатели библиотеки делают установку на строгое и точное воспроизведение структуры оригинального печатного издания. К.В. Вигурский и И.А. Пильщиков отмечают: «И по составу, и по представлению информация должна быть подготовлена так, чтобы удовлетворять, прежде всего, потребности специалистов.
Когда человек входит в раздел «Пушкин» — он находит основное и безусловное, что «покрывает»... программы филологической направленности (конечно, мы не сможем дать все). Мы стремимся к тому, чтобы человеку, работающему по конкретной теме в нашей электронной библиотеке, где бы он ни находился географически, не нужно было проверять, сравнивать, дозаказывать книги. В нашей библиотеке по каждому «титульному» автору представлены несколько изданий полных собраний сочинений, разные комментарии, разные редакции, сопроводительная литература» (35).Главное, на наш взгляд, достижение филологов, работающих над формированием Фундаментальной электронной библиотеки, — разработка и реализация принципов, которые могут стать основанием для создания электронных библиотек в будущем. Это
следующие принципы: соответствие современному научному уровню; полнота представления информации, необходимая и достаточная для проведения научных исследований: пользователь электронной библиотеки должен иметь в своем распоряжении такой объем материалов, который позволил бы ему проводить научные исследования, не прибегая к иным источникам информации; точность воспроизведения исходной информации: все источники воспроизводятся с максимальной полнотой (основной текст, иллюстративный ряд, служебные страницы), с сохранением структуры и пагинации оригинального издания, во всех случаях сохраняются орфография и пунктуация источников, а также их графика (за отдельными исключениями графики шрифтов); все включенные в электронную библиотеку издания должны быть снабжены точными библиографическими описаниями; наличие развитой системы поиска информации (см.: сайт feb-web.ru).
Большие возможности дает использование Национального корпуса русского языка (ruscorpora.ru). Это информационно-справочная система, основанная на собрании текстов на русском языке в электронной форме. Цель создания национального корпуса — представить русский язык XVIII — начала XXI века во всем многообразии жанров, стилей, территориальных и социальных вариантов и т.п.
Как отмечают создатели Национального корпуса русского языка, он предназначен «для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях» (см.: сайт ruscorpora.ru).
Структура национального корпуса русского языка в настоящее время представлена следующими разделами: основной корпус — письменные тексты XVIII — начала XXI века; синтаксический корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей); газетный корпус — статьи из средств массовой информации 1990—2000-х годов; параллельные корпусы, в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка.
В настоящее время для поиска доступны англо-русский, русско-английский, немецко-русский, украинско-русский и русско-украинский параллельные корпуса; корпус диалектных текстов; корпус поэтических текстов; обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка; корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов; акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов); эти тексты доступны для поиска по месту ударения и просодической структуре слова; мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т.п.).Больших результатов достигли и системы машинного перевода. Программы-переводчики (Stylus, Promt и др.) в настоящее время успешно справляются с задачами, связанными с необходимостью быстро понять общий смысл документа на иностранном языке или проанализировать многоязычную информацию в Интернете. Поэтому филологи должны обращаться к этим фондам информации.
Ученые активно разрабатывают формы и способы работы с компьютерными технологиями в филологии. Так, например, А.А. Татевосян предлагает специальный курс для магистров филологии «Компьютерные технологии в филологии», связанный с задачами ознакомления студентов с предназначенными для филологов ресурсами: электронными библиотеками, информационными проектами, базами данных; методами автоматического анализа текста на морфологическом, синтаксическом и семантическом уровнях; изучением соответствующих программных средств, форм использования компьютерных технологий в филологическом образовании.
Программа курса представлена на сайте РоссийскоАрмянского университета (http://www.rau.am). Здесь мы приводим ее часть, связанную с предложениями по работе филологов с ресурсами Интернет и современным программным обеспечением. Особенность этой программы в том, что автор опирается на хорошо разработанные зарубежные технологии, применяемые во всем мире.Предполагаемое знакомство с электронными библиотеками художественной литературы и научных изданий, с филологическими информационными проектами по созданию электронных словарей различного типа, научно-справочных и исследовательских баз данных опирается на научно-образовательный портал «Лингвистика в России: ресурсы для исследователей» (http://uisrussia.msu.ru/linguist/index.jsp), проект РАН и Института языка им. В.В. Виноградова «Этимология и история русского языка» (http://etymolog.ruslang.ru); проект филологического факультета МГУ «Русская фонетика» (http://www.philol.msu.ru/rus/ galya-1/index1.htm), электронные научные издания различных разделов Фундаментальной электронной библиотеки (ФЭБ) «Пушкин», «Лермонтов», «Толстой», «Русская литература и фольклор» (http://feb-web.ru), Конкордансы всех произведений Ф.М. Достоевского, В.И. Даля (http://www.philolog.ru) и др.
Предлагается знакомство с ресурсами, предназначенными для атрибуции литературных произведений: информационная система «Статистические методы анализа литературного текста» (http://smalt.karelia.ru/index.html); Лингвоанализатор (http://www.rusf.ru/books/ analysis/history.htm).
Важно знать о существовании компьютерных технологий обработки данных: программ анализа и лингвистической обработки текстов — Russian Morphological Dictionary (программа для синтаксического и морфологического анализа русскоязычных текстов); программных продуктов фирмы LingSoft (компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков); программных продуктов АОТ (автоматической обработки текста): модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, система синтаксического и фрагментационного анализа для русского и немецкого языков, система первичного семантического анализа. А.А. Татевосян обращает внимание на синтаксический анализатор естественного текста на русском языке (http://syntax.ru) — программу, обрабатывающую предложения с большим количеством слов (100 и более); склонятель — программу для склонения наименований на русском языке; программу WordStat — утилиту подсчета частоты встречаемости различных слов в текстовых или html-файлах.
Филолог может пользоваться программами, осуществляющими машинный перевод. Это «Мультитран» (http://www.multitran.ru) — система автоматического перевода, поддерживающая русский, английский, немецкий, французский и испанский языки, предоставляющая возможности алфавитного, морфологического и фразового поиска; «Promt» — онлайн переводчик, интегрирующий возможности технологий Translation Memory и машинного перевода, поддерживает русский, английский, немецкий, французский, испанский и другие языки.
Интересными для филологов могут быть генераторы текстов: тест Тьюринга, программы — эмуляторы искусственного интеллекта Chat Master, Nai (nus artificial intelligence) и другие русскоязычные самообучающиеся программы, ведущие контекстно-зависимый диалог. Scott Pakin's automatic complaint-letter generator — генератор письменных жалоб Скотта Пейкин (генерирует тексты жалоб на заданную персону или организацию); Russian Word Constructor (RWC), программа, конструирующая русские неологизмы на основе словаря с лексико-статистической информацией о языке и др.
Следует знать и о существовании программ, обеспечивающих стилистический анализ, например, Fresh Eye — утилиты для выбраковки расположенных близко в тексте фонетически и морфологически сходных слов; «Худломера» — программы, осуществляющая автоматическую классификацию функционального стиля текста на основе спектров длин слов и др.
А.А. Татевосян уделяет особое внимание использованию компьютерных программ и Интернета в филологическом образовании. В программе курса предлагается рассмотреть системы дистанционного обучения: кейс-технологии, интегрированные обучающие среды WebCT и LearningSpace, неинтегрированные программные пакеты для создания упражнений, проведения тестирования, организации работы в группах и поддержки интерактивного обучения.
Рассматриваются гипертекстовые системы: World Wide Web — гипертекстовая система, основанная на клиент-серверной архитектуре и работающая на Интернет, Hyper Wave — система управления документами Web в больших информационных пространствах; Microcosm — открытая гипермедиа система для разработки онлайновых учебников, справочников и документации; Storyspace — система, поддерживающая процесс написания гипертекстовых произведений («писательская среда»); WebThing — объектно-ориентированная гипертекстовая система, спроектированная для совместной авторской работы. Все программы снабжены инструкциями по их использованию (подробнее см.: 105).
Еще по теме Компьютерные технологии в филологии:
- Компьютерные технологии обучения
- Проектирование средствами современных компьютерных технологий. Межпредметный проект «Didakt-Soft World» - «Мир комфортного образования» Р.В.СЕЛЮКО
- «Виртуальная реальность», или Педагогические возможности игровой эстетической компьютерной среды в курсе «Компьютерная графика и анимация» Елена ХРАМЦОВА
- 2. Филология и лингвистика.
- ГОМЕР И КЛАССИЧЕСКАЯ ФИЛОЛОГИЯ
- Штайн К.Э., Петренко Д.И.. Филология: История. Методология. Современные проблемы. Учебное пособие, 2011
- ПРОБЛЕМА ТЕКСТА В ЛИНГВИСТИКЕ, ФИЛОЛОГИИ И ДРУГИХ ГУМАНИТАРНЫХ НАУКАХ
- Нина Мечковская Кирилло-мефодиевское наследство в филологии ЗТашя ОН/гойоха и библейская герменевтика Франтишка Скорины
- 1. Компьютерные преступления
- 5. Компьютерно-техническая экспертиза
- 13.7. Компьютерное тестирование
- Федотов Н.Н. Форензика — компьютерная криминалистика, 2007
- ВОЛШЕБНЫЕ СТРАНЫ Компьютерные двойники
- ВОЛШЕБНЫЕ СТРАНЫ Компьютерная демократия Монтландии
- Компьютерный центр Сената
- 4. Возможности говорящих компьютерных программ
- Компьютерная графика и анимация Е.Э. ХРАМЦОВА, О.А. СУСЛОВА, Н.Э. БАСИНА
- Глава 21 В ПОИСКАХ ВЫХОДА: КОМПЬЮТЕРНЫЙ ТОТАЛИТАРИЗМ
- О КОМПЬЮТЕРНЫХ ПРЕСТУПЛЕНИЯХ И ИХ ПОСЛЕДСТВИЯХ ДЛЯ ЧЕЛОВЕЧЕСТВА