П.Н. Афонин. «Информационные таможенные технологии»

За тысячелетия существования библиотек были созданы библиографические методы поиска. Центральная тема произведения выражалась в виде краткого текста, по которому читатель выносил суждение о соответствии или несоответствии данного произведения своей информационной потребности.

Ответ на многие вопросы информационного поиска дает оптимальный выбор стратегии поиска. Более того, в некоторых ситуациях стратегия поиска указывается специальным образом. Так, информационный массив должен быть определенным образом упорядочен, что облегчает поиск. Сначала надо найти ту отрасль права, где может содержаться нормативно-правовой акт (НПА — это официальный письменный документ, выражающий волеизъявление полномочного органа государственной власти по установлению, изменению или отмене норм права), а затем — сам акт (или правовую норму).

Модель поиска текстовой информации характеризуется пятью параметрами:

• представлением документов и запросов;
• критерием смыслового соответствия;
• методами ранжирования результатов запроса;
• механизмами обратной связи, обеспечивающими оценку релевантности;
• пользователем.

Рассмотрим наиболее распространенные модели поиска.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели R-SV равно либо 1, если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Такая модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Нередко результаты выглядят противоестественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в И ПС часто применяется обратная связь с пользователем. Как правило, система просит пользователя указать релевантность или нерелевантность нескольких документов, включенных в начало списка вывода. Поскольку результаты не ранжируются, выбор документов для подобной экспертной оценки релевантности затруднен.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. Тем не менее И ПС на основе подобной модели оказывается практически столь же неспособной классифицировать полученные результаты, что и системы, базирующиеся на булевой модели.

Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели. Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из n нормализованных векторов терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Достоинство подобной модели в ее простоте. Она позволяет легко реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модели.

Вероятностные модели. В пространственно-векторной модели подразумевается, что векторы терминов ортогональны и существующие взаимосвязи между терминами не должны приниматься во внимание. Кроме того, в такой модели не специфицируется степень соответствия «запрос — документ» и она оценивается достаточно произвольно. Вероятностная модель учитывает все взаимозависимости и связи терминов, а также определяет такие основные параметры, как веса терминов запросов и форма соответствия «запрос — документ».

Данная модель базируется на двух главных параметрах: Pr(rel) и Pr(nonrel), т. е. на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Подразумевается, что релевантность является бинарным свойством, и поэтому Pr(rel) = 1 - Pr(nonrel). Кроме того, в этой модели применяются два стоимостных параметра: a1 и a2. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа и пропуском релевантного документа.

Данная модель требует определения вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые довольно сложно. Между тем она выполняет важную функцию, объясняя процесс поиска и предлагая теоретическое обоснование методов, применявшихся ранее эмпирически (например, введение некоторых систем определения весовых коэффициентов терминов).

Проблема информационного поиска существует во всех видах юридической деятельности. Особо острый характер она имеет в сфере нормативной правовой информации, особенность которой состоит в том, что она является официальной и документированной.

Ущерб, причиняемый обществу и государству неуправляемыми потоками правовой информации, огромен. «Инфляция» правовых актов ослабляет основы правопорядка и законности.

Первые убедительные эксперименты по применению ЭВМ для решения задачи поиска нормативных правовых актов в России были выполнены в середине 60-х гг. XX в. в Лаборатории автоматизации правовой информационно-справочной службы. Их результатом явилось создание АИПС «Законодательство». Учету подлежали как опубликованные, так и непубликуемые действующие нормативные акты высших органов государственной власти и управления СССР и союзных республик, общеобязательные нормативные акты министерств, ведомств, госкомитетов. Определена последовательность формирования фонда актов. На первом этапе — акты высших органов государственной власти и управления, на втором — общеобязательные акты министерств, ведомств, государственных комитетов.

Создание АИПС по законодательству и развитие правовой информатики объективно способствует постановке новых проблем теории права. К их числу относится, например, проблема латентной (скрытной) правовой информации. Латентная информация имеет разнообразные формы. Можно выделить три главные группы.

1. Нормы и правоположения, сходные или близкие по смыслу, но выраженные в различной языковой форме. Например, если взять понятия «договор», «соглашение» и «контракт», то очевидно, что они весьма близки. Массив, содержащий хотя бы один из указанных терминов, представляет значительный интерес для решения конкретных задач правотворчества. Однако если пользователю будет предоставлена информация, содержащая только один из приведенных терминов, то остальная окажется латентной. Методы, позволяющие перевести ее в информацию явную, разрабатываются в теории информационного поиска.

2. Логический вывод из содержания нормативного текста (закона, иного нормативного акта). Например, из сопоставления гл. 1 и 2 Конституции РФ можно сделать выводы о наличии у информационных норм, указанных в гл. 2, таких свойств и качеств, которые в латентном виде содержатся в гл. 1. Из сопоставления ч. 4 ст. 29 и ст. 2 Конституции РФ можно сделать вывод — право на информацию относится к числу высших ценностей общества и государства. Признание, соблюдение и защита права на информацию — обязанность государства.

3. Латентная информация, логически связанная с определенным кругом правотворческих задач. Так, в соответствии с положениями общей теории права каждая правовая норма действует в контексте других, каждый институт права действует совместно с иными институтами, а каждая отрасль законодательства — совместно с иными отраслями. Все нормативные предписания действуют совместно с нормами и принципами Конституции РФ. Приведем простой пример.

Некий субъект желает получить информацию об ответственности за хулиганство (ст. 213 УК РФ). Он может сформулировать запрос для ЭВМ, состоящий из трех слов: «уголовная ответственность» и «хулиганство». Ответ ЭВМ будет содержать только текст ст. 213 УК РФ. Однако для применения данной нормы надо располагать дополнительной информацией: об условиях уголовной ответственности за хулиганство, о возрасте уголовной ответственности, порядке расследования дел данной категории и другими сведениями, что достигается в результате применения более сложных методов.

Одной из возможностей совершенствования методов компьютерного поиска правовой информации является создание гипертекстовых баз знаний. Гипертекст — это особая форма организации, представления текстового материала. Идея гипертекста была выдвинута в 1945 г. советником президента Рузвельта по науке Веневером Бушем.

Большинство текстов любой природы, включая и правовые, содержат наряду с основным и некоторые иные тексты — второго порядка: система ссылок к тексту, комментарии к нему, разные редакции текста, тексты, отвечающие или возражающие друг другу, и др. Характерным примером использования гипертекстовых технологий в области права может служить система ссылок на иные НПА, содержащиеся в данном акте.

4.8.7. Оценка качества документальных информационно-поисковых систем

<< [1] ... [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] ... [66] >>

Контактная информация: e-mail: arsenev@me.com