Informatics Point

Информатика и проектирование

Назначение баз данных

Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными. Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД.

Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.

В основе подхода к построению классификационных языков лежит представление о том, что накопленные знания могут быть разделены на взаимоисключающие классы и подклассы. Существует система правил, которой должен подчиняться любой язык классификационного типа, в частности:

Деление отраслей знаний на классы и подклассы проводится по одному основанию;

Подклассы должны исключать друг друга;

При делении классов на подклассы должна соблюдаться непрерывность.

Информационно - поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.

Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте.

Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.

Лексическая единица - наименьшая смысловая единица, задаваемая при построении языка.

В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса. Контроль может осуществляться в автоматизированном или ручном режиме. По сути дела тезаурус представляет собой словарь - справочник, в котором присутствуют все лексические единицы дескрипторного информационно поискового языка с введенными парадигматическими отношениями. Парадигматические отношения могут задаваться как:

- Отношения вид - род (вышестоящий дескриптор);

- Отношения род - вид (нижестоящие дескрипторы);

- Синонимы;

- Ассоциативные связи

В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов.

Как дескрипторы, так и недескрипторы приводят к единой грамматической форме. Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений. Тезаурус может быть двуязычным. В этом случае эквивалентный дескриптор на иностранном языке должен быть обозначен.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.

Перейти на страницу: 1 2

Лучшие статьи по информатике

Моделирование волноводных устройств СВЧ
Прогресс радиоэлектроники сопровождается быстрым развитием теории и техники СВЧ - устройств. Возрастает сложность СВЧ трактов, повышаются требования к элек ...

Часы–будильник с матричным светодиодным индикатором
Данная тема курсового проекта «Часы - будильник с матричным светодиодным индикатором. Схема индикации» была предложена цикловой комиссией специальности 2301 ...

Расчет основных характеристик усилительного каскада биполярного транзистора
транзистор усилитель каскад Целью данной курсовой работы по предмету “Схемотехника телекоммуникационных устройств” является применение знаний полученных ...

Меню сайта