Статистические методы
Еще один статистический метод индексирования основывается на дискриминации по термину.
Здесь каждый документ рассматривается как точка в пространстве документов: чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки (иными словами, повышается плотность точек в пространстве документов), и наоборот.В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной их оценки удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами. Другими словами, хорошие дискриминирующие качества снижают плотность в пространстве документов. Дискриминирующая характеристика термина вычисляется как разность между плотностями пространства документов до и после введения термина. Оказалось, что часто встречающиеся термины имеют отрицательные значения дискриминирующих характеристик, термины со средней частотой — положительные, а для редко встречающихся терминов эти значения близки к нулю.
Теоретико-информационные методы
Как известно из теории информации, наименее предсказуемый термин, вероятность вхождения которого в документ минимальна, имеет наибольшую информационную ценность. Для вычисления специальной характеристики (так называемого отношения сигнал/шум), используемой при оценке полезности термина для индексирования, применяются концепции теории информации.
Здесь предпочтение отдается терминам, сконцентрированным в отдельных документах. Таким образом, по основным свойствам этот подход аналогичен тем, при которых используется оценка частотных характеристик документов для каждого термина.Вероятностные методы
Вероятностные подходы требуют наличия "обучающего множества" документов, которое можно получить с помощью опроса пользователей, позволяющего делать заключения о релевантности результатов обработки запроса. Обучающее множество применяется для вычисления весовых коэффициентов, получаемых путем оценки условий вероятности вхождения термина в данный документ в случае его релевантности (или нерелевантности). Исходя из этого и используя теорему Байеса, рассчитывают вес термина. Положительное его значение показывает, что вхождение термина в документ свидетельствует в пользу релевантности документа запросу, а отрицательный вес говорит об обратном.
Морфологический анализ текстов
Такой анализ служит для того, чтобы определить морфологическую принадлежность слов и привести их к нормальной форме (именительному падежу, инфинитиву). Это нужно как на этапе индексирования текстов, чтобы различные формы одного и того же слова считались одним и тем же словом, так и для поиска, чтобы пользователь мог вводить в запрос слова в любой, а не только словарной форме (например, просто фразу на естественном языке).
Программы морфологического анализа принимают на вход словоформу, отсекают все возможные окончания (по таблицам окончаний), проверяют, содержатся ли полученные начальные части в словаре как основы, и если да, то допустимы ли подобные окончания и какие грамматические признаки они определяют. Если есть допустимые варианты, модуль возвращает идентификаторы слов, формой которых может являться данная словоформа.
Гипертекстовые базы данных
Базы данных по-разному строятся для двух типов гипертекста: того, в котором связь — это отсылка от выделенной части текста, и того, в котором связи носят межзвуковой характер.
Основные элементы гипертекстовой базы данных ИКС — узлы, это порции информации не обязательно чисто текстовой (вербальной), а таблицы, диаграммы, рисунки и фотографии, видеоклипы.
В базе данных могут быть узлы, носящие характер комментария или библиографической справки по отношению к основным узлам. Каждый из них вызывается из основного узла, является в определенном смысле его частью, но автономной, отделенной от него.Внутри узла также могут быть достаточно автономные части, с которыми возможно оперировать как с самостоятельными элементами. Например, оглавление, глава или параграф текста могут находиться в отдельном фрагменте и вызываться на экран только по желанию пользователя.
Узел может иметь версии, то есть варианты содержащегося в них текста. Узел в целом рассматривается по отношению к ним как некоторый семантический инвариант, исходя из которого и устанавливаются его связи с другими узлами.
Узлы имеют различного рода атрибуты, характеризующие семантику (например, ключевые слова, фразы), логическую роль содержимого узла в гипертексте ("аргумент", "факт" и т. п.), время ввода информации, личные пометки пользователя. Сюда могут быть отнесены и структурные характеристики узла, например число связей.
Есть свои атрибуты и у связей, характеризующие прежде всего их основание и тип (прямая ссылка, тематическая близость, смысловая смежность), а также более конкретные отношения между узлами (родовидовые, причинно-следственные и т. п.).
Операции над элементами гипертекстовых баз данных
Нужно прежде всего отметить операции прямого манипулирования элементами базы (вызов на экран окна, в котором можно читать содержимое узла или записывать новый текст: перемещение окон по экрану, изменение их формы и размера и т. п.). Такой же характер носит навигация от узла к узлу — вызов смежного узла. Кроме того, гипертекстовая база данных ИКС должна обеспечивать поиск узлов по любому набору атрибутов. Наконец, возможны приложения, для которых необходима автоматическая навигация в гипертексте, то есть построение цепочек узлов по определенным критериям. Цепочки (наборы) узлов, созданные прямой манипуляцией пользователя или автоматически, могут стать самостоятельными элементами базы данных и подвергаться последующим операциям как целостные образования.
Поиск элементов гипертекста по ключевым словам
Одно из главных достоинств хранения текста в компьютерной памяти заключается в возможности отыскивать в текстах определенные слова и выражения, а также сами тексты и их фрагменты по этим словам и по приписанным к текстам дескрипторам11.
Такого рода процедуры, естественно, можно осущест- влять и по отношению к тем электронным текстам, которые являются элементами гипертекста. Практически все гипертекстовые системы обеспечивают поиск текстовых фрагментов по ключевым словам, которые вместе с дескрипторами рассматриваются как неявные ссылки. Фрагменты с общими ключевыми словами считаются семантически связанными.Технология создания больших гипертекстов
Установление связей в гипертексте требует больших умственных затрат. С ростом гипертекстовой системы эффективно поддерживать процесс установления связей — автоматически или вручную — становится весьма трудоемким.
С увеличением размера гипербазы возникают следующие проблемы: 1.
Неполнота связей. Индексаторы не замечают важные связи и не могут предвидеть их потребности в будущем. 2.
Излишняя полнота связей, которая создается на чересчур детальном или всеохватном уровне рассмотрения; сюда относится также случай, когда на узел приходится слишком большое число связей. 3.
Непоследовательность в установлении связей. 4.
Амбивалентность связей. Никто не помнит, почему та или иная связь установлена. 5.
Устаревание связей. По мере того как система растет и меняется, некоторые связи и словоупотребления утрачивают свою значимость.
Для уменьшения трудоемкости и повышения качества установления связей в больших гипертекстовых базах данных ИКС рекомендуется ряд методов и средств, в частности:
Индексирование гипербазы в целом
При формировании больших гипертекстовых баз данных применяется технология поиска "кандидатов на связь", то есть для каждого вновь вводимого узла ищутся те из уже имеющихся в базе данных, с которыми его возможно связать по семантическим соображениям. При этом обычно используются ключевые слова, выделяемые из текстов. Указание ключевых слов, проводимое вручную, не только весьма трудоемкое дело, но возможны и большие вариации качества индексирования.
Автоматическое индексирование
Оно, как правило, осуществляется на основе лингвистического — морфологического и синтаксического — анализа текста. Установлено, что более высокие результаты в этом варианте достигаются при настройке на частную предметную область.
Автоматическое установление связей в гипертексте Будущее гипертекста в значительной степени связано с развитием методов автоматического установления смысловых связей. Применяемые в настоящее время методы весьма примитивны и по большей части основываются на принятии некоторого порога общих ключевых слов у фрагментов гипертекста.
Еще по теме Статистические методы:
- Статистический анализ как метод получения выводов
- 3. Применение статистических методов и средств формализации в психолого-педагогическом исследовании
- Результаты применения метода эмпирико-статистического выявления традиционного и инновационного на основе повторных исследований
- 51. СТАТИСТИЧЕСКИЙ И СЦЕНАРНЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ УСЛОВИЙ, РАСЧЕТ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО И СЦЕНАРНОГО АНАЛИЗА В СИСТЕМЕ PROJECT EXPERT
- Основные статистические показатели
- Статистическая значимость.
- ПРОБЛЕМЫ ИНТЕЛЛЕКТУАЛИЗАЦИИ СТАТИСТИЧЕСКОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ М. М. Лери
- 5.2 Социально-статистические исследования в первой половине XIX в.
- 5 "ПОЛИТИЧЕСКАЯ АРИФМЕТИКА" И СОЦИАЛЬНО-СТАТИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ ДО СЕРЕДИНЫ XIX в
- ОФИЦИАЛЬНЫЕ ДОКУМЕНТЫ И ИСТОЧНИКИ СТАТИСТИЧЕСКИХ ДАННЫХ
- 2.2 Адольф Кетле — автор статистической "социальной физики"
- Раздел II. Социально-статистические основы 3.
- Статистическая обработка результатов психолого-педагогического исследования
- Статистические оценки сложности задач выявления предпочтений ЛПР
- Статистическая значимость. Оценки обучения, выставляемые организациями