Основные элементы информационно-поискового языка. Классификация ИПЯ

Использование естественного языка (ЕЯ) позволяет легко составлять поисковые образы большой семантической силы. Недостатки ЕЯ - громоздкость и неоднозначность.

Однако, как правило, ЕЯ, ограниченный предметной областью, используется только как словарная основа для создания ИПЯ.

Единой теории построения ИПЯ не существует, так как при синтезе ИПЯ определяющей всегда является специфика предметной области; существует лишь устоявшаяся терминология в области ИПЯ.

Элементы ИПЯ - правила, алгоритм, код, алфавит.

Алфавит ИПЯ - набор качественных признаков в виде определённых знаков, используемых для информационного общения на данном языке.
Коды ИПЯ - делятся на

· технические (для передачи формы сообщения) и
· семантические (для передачи содержания сообщения).
Морфология ИПЯ - правила построения слов в данном языке. 
Синтаксис ИПЯ - правила построения фраз при помощи словаря данного языка.
Словарь ИПЯ - полный набор слов данного языка с указанием их правописания. Словарь ИПЯ используется при:
· Переводе текста с ЕЯ на ИПЯ;
· Обеспечении возможности избыточного индексирования документов или информационных запросов;
· Установлении соответствия между обозначением сущности и её содержанием.
Классификация ИПЯ

Иерархические ИПЯ - это такие ИПЯ, в которых глубина раскрываемой сущности и предметность увеличивается по мере нисхождения по иерархической лестнице, а дескриптор содержит символы всех вышестоящих дескрипторов. Иерархические ИПЯ считаются языками с жесткой структурой, изменять которую можно только путём расширения вниз.
Достоинства иерархических ИПЯ:
+ Стабильность;
+ Простота формирования понятий;
+ Простота управления уровнем детализации понятия.
Недостатки:
- Негибкость;
- Искусственная, необязательно совпадающая с естественной, природа иерархии, что может привести к неоднозначности при поиске.
Предметные ИПЯ характеризуются отсутствием жёсткой структуры и определённого кода; их словарный состав состоит из терминов и фраз ЕЯ. ПОД может формироваться из одного или нескольких терминов ЕЯ.
Фасетные ИПЯ - языки, в которых поисковый образ состоит из ряда характерных качественных признаков (категорий, аспектов, фасетов) предмета, и каждый фасет в рамках предметной области может принимать различные значения. То есть любое понятие описывается набором фасетов, представляющих собой подмножество всего их множества, а каждый фасет содержит в себе некоторый термин предметной области из набора своих терминов (фокусов).
В рамках фасета, как правило, организуется иерархическая классификация фокусов. Автор фасетной классификации Ш.Р. Ранганатан.
Дескрипторные ИПЯ - позволяют избежать неоднородности ЕЯ путём обозначения любого термина уникальным дескриптором. Дескрипторные ИПЯ предназначены преимущественно для описания документов. Описание документа при помощи дескрипторного ИПЯ производится путём формирования из текста набора ключевых слов. Ключевыми называются слова, наиболее точно выражающие индивидуальные особенности текста.
Дескрипторные ИПЯ основаны на идее о том, что ограниченным набором ключевых слов может быть выражено содержание любого документа. Ключевые слова используются в качестве дескрипторов: из набора синонимичных ключевых слов выбираются наиболее характерные. Количество дескрипторов, используемых для составления ПОД может быть индивидуальным для каждого документа в зависимости от точности, с которой данный набор характеризует данный документ.
Для дескрипторных ИПС характерно наличие информационного и поискового массивов. Информационным называется массив документов. Поисковый массив может иметь прямую или инверсную организацию. При прямой организации в поисковом массиве хранятся ПОД документов информационного массива. При обработке запроса ПОЗ, состоящий из дескрипторов, сравнивается со всеми ПОД поискового массива. Решение о соответствии принимается согласно критерию смыслового соответствия. При инверсной организации в поисковом массиве хранятся дескрипторы, каждый из которых обладает расширенным списком ссылок на документы, в которых он встречается. При обработке запроса составляются списки документов для каждого дескриптора, входящего в ПОЗ. Результат обычно формируется путём логического пересечения этих списков.
Дескрипторная ИПС может быть построена эшелонировано. При этом при обработке запроса, в первый эшелон попадают, как правило, документы, в которых встречаются все дескрипторы, присутствующие в ПОЗ, а в последний - документы, в которых встречается хотя бы один дескриптор. Глубина эшелонирования выдачи зависит от того, что более интересует пользователя: полнота или точность.
К специальным ИПЯ относятся языки, которые в силу определённого влияния предметной области не относятся однозначно к какой-либо из описанных групп, заимствуя при этом черты некоторых из них. Специальными являются, например, ИПЯ, разрабатываемые для специальных ведомственных ИПС.

Категории: 

Метки: