Informatics Point

Информатика и проектирование

Назначение баз данных

Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными. Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД.

Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.

В основе подхода к построению классификационных языков лежит представление о том, что накопленные знания могут быть разделены на взаимоисключающие классы и подклассы. Существует система правил, которой должен подчиняться любой язык классификационного типа, в частности:

Деление отраслей знаний на классы и подклассы проводится по одному основанию;

Подклассы должны исключать друг друга;

При делении классов на подклассы должна соблюдаться непрерывность.

Информационно - поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.

Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте.

Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.

Лексическая единица - наименьшая смысловая единица, задаваемая при построении языка.

В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса. Контроль может осуществляться в автоматизированном или ручном режиме. По сути дела тезаурус представляет собой словарь - справочник, в котором присутствуют все лексические единицы дескрипторного информационно поискового языка с введенными парадигматическими отношениями. Парадигматические отношения могут задаваться как:

- Отношения вид - род (вышестоящий дескриптор);

- Отношения род - вид (нижестоящие дескрипторы);

- Синонимы;

- Ассоциативные связи

В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов.

Как дескрипторы, так и недескрипторы приводят к единой грамматической форме. Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений. Тезаурус может быть двуязычным. В этом случае эквивалентный дескриптор на иностранном языке должен быть обозначен.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.

Перейти на страницу: 1 2

Лучшие статьи по информатике

Частотно-территориальное планирование сети сотовой подвижной связи стандарта GSM
Линии радиосвязи, входящие в состав сотовых сухопутных подвижных систем электросвязи (ССПСЭ) и спутниковых систем связи, обычно работают в диапазонах ультра ...

Система охранно-пожарной сигнализации ООО Завод Медсинтез
охранный сигнализация пожарный Пожарная безопасность предусматривает обеспечение безопасности людей и сохранения материальных ценностей предприятия н ...

Основы построения глобальной системы контроля Эшелон
«Эшелон» - общепринятое название глобальной системы радиоэлектронной разведки и контроля, представляющей собой многонациональную сеть электронных прослушива ...

Меню сайта