П.Н. Афонин. «Информационные таможенные технологии»
В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).
Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности — соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.
4.8.2. Обобщенная функциональная структура документальных информационно-поисковых систем
В состав типичной ДИПС входят, как правило, четыре основные подсистемы (рис. 49): подсистема ввода и регистрации, подсистема обработки, подсистема хранения, подсистема поиска.
Рис. 49. Общая функциональная структура ДИПС
Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:
• создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
• обеспечение подключения к каналам доставки электронных документов;
• распознавание, а при необходимости и преобразование формата электронных документов;
• присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).
Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:
• неэффективным использованием дискового пространства;
• низкой скоростью доступа при большом количестве файлов.
Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т. п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа. ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы — информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 — в зависимости от наличия или отсутствия данного признака в данном документе.
Очевидно, что такая таблица будет сильно разреженной и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам. Такую форму хранения называют прямой или инверсной соответственно. Поскольку при свертке таблицы структура индекса усложняется, для его поддержания могут использоваться средства СУБД.
При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
4.8.3. Проблемы формального представления смыслового содержания текста
Естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми, однако он обладает некоторыми особенностями, обусловливающими невозможность его использования в качестве основного средства представления информации во время всего цикла функционирования ДИПС.
Многообразие средств передачи смысла. Несмотря на то что основным средством передачи смысла сообщения является лексика ЕЯ, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов: контекст, парадигматические отношения между словами, текстуальные отношения между словами, ссылки на слова (словосочетания, фразы и т. д.), ранее упоминавшиеся в тексте сообщения.
Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов естественного языка.
Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие, которые отличаются одно от другого или оттенками значений, или стилистической окраской, или одновременно обоими названными признаками. Синонимами ЕЯ являются как отдельные слова, так и словосочетания.
Многозначность характеризует возможность неоднозначного понимания смысла слов естественного языка. Многозначность слов представлена двумя разновидностями — полисемией и омонимией. Полисемия — это совпадение названий различных предметов, имеющих между собой какие-либо общие свойства или признаки. К типичным общим свойствам, служащим базой полисемии, следует отнести сходство предметов, их смежность (пространственную, временную и т. д.), а также одинаковое функциональное назначение. Примерами полисемии являются: «команда» (воинское подразделение) — «команда» (экипаж судна) — «команда» (спортивная). Омонимия — это совпадение названий различных предметов, не имеющих между собой каких-либо общих свойств. Например: «лук» (оружие) — «лук» (растение); «ключ» (родник) — «ключ» (дверной). Омонимичные слова, совпадающие между собой как по написанию, так и по звучанию, следует отличать от омографов — слов, обозначающих различные предметы, одинаковые по написанию, но разные по звучанию, например: «замок» (дверной) — «замок» (дворец). Однако, поскольку ДИПС оперируют сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений, омографы могут быть приравнены к омонимичным словам.
Эллипсность. Во многих сообщениях на ЕЯ встречаются эллипсы, или пропуски подразумеваемых слов. Эллипсность сообщения зачастую играет отрицательную роль при непосредственной работе с ним человека. Очевидно, что она тем более отрицательно скажется в том случае, если сообщения на ЕЯ будут обрабатываться компьютером.
4.8.4. Информационно-поисковые языки
Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности последующего их поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности. ИПЯ принято разбивать на два основных типа:
• классификационные языки;
• дескрипторные языки.
Классификационные языки
Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:
Политика. Внутренняя. Федеральная
Политика. Внутренняя. Региональная
...
Политика. Внешняя...
Таким образом, с помощью таких языков производится классификация сообщений, т. е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.
Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками — объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Все нелистовые вершины являются классификационными родо-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.
Обычно рубрикатор формируется группой экспертов на основании их знаний о предметной области с учетом информационных потребностей пользователей. На рис. 50 приведен пример рубрикатора некоторой предметной области.
Поскольку в классификационных языках сложные понятия задаются заранее, до начала процедуры записи сообщения с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых.
Дескрипторные языки
В дескрипторных ИПЯ ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции — предложения или фразы — создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа Л Е данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи.
<< [1] ... [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] ... [66] >>
|