Справочник от Автор24
Поделись лекцией за скидку на Автор24

Дескрипторные информационно-поисковые языки (ИПЯ).

  • 👀 564 просмотра
  • 📌 541 загрузка
Выбери формат для чтения
Статья: Дескрипторные информационно-поисковые языки (ИПЯ).
Найди решение своей задачи среди 1 000 000 ответов
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Дескрипторные информационно-поисковые языки (ИПЯ).» docx
Лекция «ДЕСКРИПТОРНЫЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ (ИПЯ)» Общая характеристика дескрипторных ИПЯ Дескрипторный ИПЯ (ДИПЯ, дескрипторный язык) — это ИПЯ, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Такое определение ДИПЯ дается в ГОСТ 7.7496 «Информационно-поисковые языки. Термины и определения». Дескрипторный ИПЯ часто определяют также как ИПЯ, лексическими единицами которого являются дескрипторы и ключевые слова, и использование которого основано на принципе координатного индексирования. Уяснение сущности ДИПЯ невозможно без обращения к таким понятиям, как «ключевое слово», «дескриптор», «координатное индексирование». Ключевое слово (КС) — информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования. Ключевыми являются слова, несущие в тексте наибольшую смысловую нагрузку. Дескриптор — лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов. Дескрипторы используются для координатного индексирования документов и информационных запросов с целью последующего поиска. Разница между ключевым словом и дескриптором обусловлена их принадлежностью к разным типам языков Ключевое слово — это слово или словосочетание естественного языка, которое с точки зрения информационного поиска несет наибольшую смысловую нагрузку. Оно выделяется из текста документа или запроса. Выделение ключевых слов в текстах базируется на таком свойстве естественного языка, как избыточность. Дескриптор — это нормализованное слово, которому искусственным путем придается однозначность. Дескриптор — это лексическая единица искусственного языка — ИПЯ. Сходство ключевых слов и дескрипторов определяется их единой природой: и КС и дескрипторы базируются на лексике естественного языка. Поскольку основными лексическими единицами и языка ключевых слов, и дескрипторных ИПЯ являются слова, а не коды, то такие ИПЯ принято относить к классу вербальных ИПЯ. Вербальный ИПЯ — ИПЯ, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме. Координатное индексирование — это индексирование путем перечисления ключевых слов или дескрипторов. Координатное индексирование — индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Принцип координатного индексирования заключается в том, что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, то есть наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса. Например, в результате координатного индексирования смысл документа «Ксерография и консервация документов: проблемы и потенциальные возможности» будет передан перечнем таких слов, как документы, ксерография, консервация. А результатом координатного индексирования информационного запроса «Опыт организации социологических опросов в ходе избирательных кампаний в России» явятся ключевые слова социологические опросы, избирательные кампании, Россия. Принцип координатного индексирования, лежащий в основе ДИПЯ, позволяет относить эти языки к классу координатных или посткоординатных ИПЯ (ИПЯ координатного типа). ИПЯ координатного (посткоординатного) типа — ИПЯ, словарный состав которых обладает первым уровнем интеграции, включает в состав лексики преимущественно слова или устойчивые словосочетания, которые объединяются, т. е. координируются между собой в процессе индексирования, а не до него (как в иерархических классификациях). Координация лексических единиц в этих ИПЯ происходит в момент индексирования. При этом порядок следования лексических единиц не имеет особого значения и может быть произвольным, в отличие от предкоординатных (иерархических классификационных) ИПЯ, где действуют жесткие правила позиционной грамматики и порядок следования лексических единиц строго определен. В ходе информационного поиска на базе посткоординатных ИПЯ для отыскания нужного документа нужно лишь одно: чтобы названные в поисковом предписании лексические единицы входили в состав поискового образа документа одновременно, т. е. чтобы в пределах одного поискового образа существовала их координация. Таким образом, в отличие от предкоординированных ИПЯ (ДКД, УДК, ББК, МПК, рубрикаторы, классификаторы и т. д.) языки координатного типа оперируют лексикой первого уровня интеграции, что позволяет достичь большей гибкости и многоаспектности при передаче смысла документа или запроса. Принцип координатного индексирования и сама идея создания ДИПЯ возникли в 50-е годы ХХ в. связи с внедрением в информационную деятельность средств вычислительной техники и необходимостью автоматизации информационного поиска. Принцип координатного индексирования был разработан американскими учеными М. Таубе и К. Муэрсом в первой половине 50-х гг. ХХ в. в связи с попытками механизации и автоматизации информационного поиска. В частности, в 1952 г. М. Таубе предложил систему «Унитерм», работающую по принципу координатного индексирования. «Унитерм» (от английского unit term, что означает «единичный термин», «отдельное слово») — это полнозначное, имеющее большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слово, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы. Использование ИПЯ «Унитерм» наглядно демонстрировало преимущества принципа координатного индексирования: возможность многоаспектного отражения содержания документа или запроса, гибкость и оперативность проведения поиска по запросу с привлечением средств механизации и автоматизации. Однако применение для индексирования лексики естественного языка (авторской терминологии), не устраненная полисемия, омонимия и синонимия в языке «Унитерм» негативно сказывались на качестве поиска информации. Так, в условиях системы «Унитерм» в ответ на запрос Применение лазеров в медицине не был бы выдан документ Использование оптических квантовых генераторов в здравоохранении, хотя обе эти формулировки идентичны по смыслу и имеют лишь различное языковое воплощение в силу синонимичности естественного языка. Приведем в качестве дополнительных примеров следующие пары условно синонимичных выражений, распознавание которых также невозможно с помощью языка «Унитерм»: 1. Устранение дублирования в преподавании цикла языковедческих предметов в вузах. 2. Исключение параллелизма при изучении комплекса лингвистических дисциплин в университетах. 3. Программа развития санаторно-курортного строительства на побережье Черного моря в России. 4. План сооружения здравниц в Крыму и на Кавказе. 5. История кораблестроения в Великобритании 6. Развитие судостроения в Соединённом Королевстве Великобритании и Северной Ирландии. Ликвидация этих недостатков и дальнейшее развитие языка «Унитерм» были реализованы в дескрипторном ИПЯ. Структура и принципы построения дескрипторных ИПЯ Как и в любом другом ИПЯ в структуре ДИПЯ выделяются: алфавит, лексика, парадигматические и синтагматические отношения. Алфавит дескрипторного ИПЯ совпадает с алфавитом того естественного языка, на котором он создается. Дополнительно в его составе могут использоваться арабские и римские цифры, скобки, другие знаки и символы. Лексика дескрипторного ИПЯ в качестве основных лексических единиц включает дескрипторы и аскрипторы. Дескриптор — словарная единица ИПЯ, выраженная словом, словосочетанием или кодом, являющаяся именем класса условной эквивалентности, в который включены эквивалентные и близкие по смыслу ключевые слова. Дескриптор — это нормализованное слово, которому искусственным путем при­дана смысловая однозначность. Устранение неоднозначности производится путем снабжения многозначных слов соответствующим пояснением — релятором, помещаемым в круглых скобках в конце дескриптора или аскриптора: Лицо (часть тела), Лицо (субъект права); Акт (документ), Акт (действие). Устранение синонимии достигается за счет использования ссылок с (синоним) и см (смотри): Аскриптор (недескриптор, нондескриптор) — лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими заменяющими ее дескрипторами (2). Аскрипторы всегда сопровождаются ссылками на заменяющие их дескрипторы, включая такие, как см (смотри), исп к (используй комбинацию), исп а (используй альтернативно). Например: Токсины См. ЯДЫ ЯДЫ с Токсины Исходя из состава лексики дескрипторный ИПЯ может рассматриваться как словарный ИПЯ, обладающий лексикой первого уровня интеграции, план выражения и план содержания лексических единиц которого совпадают. Парадигматические отношения в дескрипторном ИПЯ представлены в явном виде, эксплицитно, с помощью системы ссылок и помет и реализуются в структуре словарной статьи. Различают дескрипторную и аскрипторную словарные статьи. Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с указанием вида связи. В рамках дескрипторной статьи термины располагаются в следующем порядке: заглавный дескриптор — дополнительные данные (частота использования дескриптора, кодовый номер дескриптора, код дескриптора по систематическому указателю, лексикографические пометы, иноязычные эквиваленты) — лексическое примечание — аскрипторы или дескрипторы-синонимы — вышестоящие дескрипторы — нижестоящие дескрипторы — ассоциативные дескрипторы — дескрипторы, связанные другими видами отношений. Внутри каждой группы лексических единиц, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Приведем пример дескрипторной статьи: ПАСТБИЩА с Выгоны Выпаса в Угодья кормовые Угодья сельскохозяйственные н Пастбище естественное Пастбище культурное долголетнее а Залужение Травостой Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов: Несовпадение рисунка см РАСТРАФ Русские тексты исп к РУССКИЙ ЯЗЫК ТЕКСТЫ Сильные парадигматические отношения в дескрипторном ИПЯ представлены отношениями синонимии и иерархии. Слабые (ассоциативные) парадигматические отношения могут включать все виды связей, кроме синонимии и отношения «род — вид». Они могут быть установлены между дескрипторами в том случае, если понятия, выражаемые этими дескрипторами, находятся в отношениях одного из следующих типов: часть — целое; причина — следствие; сырье — продукт; административная иерархия; процесс — объект; процесс — субъект; функциональное сходство; свойство — носитель свойства; антонимия. В рамках словарной статьи дескрипторного ИПЯ используются как сильные, так и слабые парадигматические отношения, выраженные с помощью ссылок (см. таблицу 1). Таблица 1 Ссылки в дескрипторном ИПЯ № Тип Обозначение Значение 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Ссылка от аскриптора к дескриптору Ссылка от дескриптора к синонимичному дескриптору или аскриптору Ссылка от аскриптора к нескольким альтернативно заменяющим его дескрипторам Ссылка от аскриптора к заменяющей его комбинации дескрипторов Ссылка от дескриптора к вышестоящему дескриптору Ссылка от дескриптора к вышестоящему родовому дескриптору Ссылка от дескриптора к нижестоящему дескриптору, обозначающему целое Ссылка от дескриптора к нижестоящему дескриптору Ссылка от дескриптора к нижестоящему дескриптору, обозначающему вид Ссылка от дескриптора к нижестоящему дескриптору, обозначающему часть Ссылка от дескриптора к ассоциативно связанному дескриптору см с исп а исп к в вр вц нч нв нч а смотри синоним используй альтернативно используй комбинацию выше выше-род выше-целое ниже ниже-вид ниже-часть ассоциация Характеризуя парадигматические отношения, представленные в дескрипторном ИПЯ, следует подчеркнуть, что они очень часто определяются не из строго научных, а из прагматических соображений. Разные тезаурусы могут устанавливать для одного и того же дескриптора разное число парадигматических связей, причем качественная трактовка этих отношений может оказаться различной: некоторое отношение в одном тезаурусе признается ассоциативным, а в другом — родо-видовым и т. п. В таблице 2 для сравнения приводятся аналогичные дескрипторные статьи из трех отраслевых информационно-поисковых тезаурусов (ИПТ). В приведенном примере наглядно видна разница в составе одной и той же дескрипторной статьи. Так, дескрипторная статья ИПТ по электротехнике включает наибольшее количество дескрипторов — 50 терминов, исчерпывающим образом характеризующих виды контрольно-измерительных приборов. Таблица 2 Прагматический характер установления парадигматических отношений в ИПТ Дескрипторная статья Тезаурус информационно-поисковый по сельскому хозяйству по технологии машиностроения по электротехнике Приборы контрольно-измерительные н — Весы — Влагомеры Водомеры Датчики Динамометры Счетчики с КИП а Аппаратура контрольно-измерительная Измерители Счетчики Устройства измерительные Шкалы с КИП н — Акселерометры • Анализаторы • Барометры • Болометры • Виброметры • Влагомеры • Дальномеры • Датчики • Дефектоскопы • Индикаторы • Интерферометры • Искатели повреждений Калориметры Логометры Манометры Микрометры Осциллоскопы Пироскопы . . . . . . . . . . . . . . • Счетчики Тензометры Термопары • Указатели (устройства) Фотоколориметры Щупы Электрометры Синонимия в ИПТ также чаще всего является условной. Именно прагматические соображения определяют и формирование классов условной эквивалентности в ИПТ. Так, в нефтегазовом тезаурусе (АСНТИ «Нефть-2») в пределах дескрипторной статьи объединяются следующие лексические единицы: СВАРКА с Автоген Газосварка Сварка ацетиленовая Электросварка Сварка дуговая в Соединение (процесс) Совершенно очевидно, что ни в тезаурусе любой машиностроительной отрасли, ни тем более в проблемном ИПТ по сварке сведение в один класс этих терминов совершенно недопустимо. Однако в АСНТИ «Нефть-2» все эти слова были необходимы только для обозначения некоторого вида соединения, в то время как более тонкие технологические нюансы этого процесса остаются вне сферы информационных потребностей абонентов. В ИПТ по технологии машиностроения, подготовленном Кемеровским ЦНТИ, приводится, например, следующая дескрипторная статья: БОЧКИ с Кадки в Тара жесткая н Бочки деревянные Бочки металлические Однако в русском языке слова «бочки» и «кадки» не являются синонимами. Словарь С.И Ожегова дает такие определения этих двух разных видов тары: «Бочка — большой цилиндрический сосуд, чаще деревянный с двумя днищами и обычно с немного выгнутыми боками». «Кадка — бочка с прямыми боками и одним днищем». Таким образом, в ИПТ эксплицитно представлены не все парадигматические отношения, существующие в естественном языке, а только такие, которые наиболее часто используются людьми, когда они хотят что-то определить, описать и выразить, и которые по этой причине наиболее важны для полноты повышения информационного поиска. Следовательно, условный характер парадигматических отношений в ИПТ вытекает из задач информационного поиска в конкретной области знаний, отрасли народного хозяйства. Синтагматические отношения в дескрипторном ИПЯ выражаются с помощью мешочной грамматики, позиционной грамматики и таких ее вариантов, как «метод стандартных фраз», аспектный (анкетный, матричный) способ представления информации, указатели роли и указатели связи, операторы булевой алгебры И, ИЛИ, НЕ. Тезаурус как способ систематизированного представления знаний и разновидность идеографического словаря Понятие «тезаурус»: сущность, отличительные особенности Тезаурус (от греч. thesauros — клад, сокровище, сокровищница) — многозначное слово, имеющее, как минимум, два значения: 1) тезаурус как идеальный объект — это «совокупность знаний, накопленных человеком или некоторым коллективом. Это упорядоченный и отраженный в сознании человека «лексикон», «мир» отдельной личности. В русском языке наиболее адекватный перевод слова «тезаурус» — это «мир знаний и интересов». Например, «мир знаний и интересов ребенка — тезаурус ребенка» и «мир знаний и интересов взрослого — тезаурус взрослого»; «мир знаний и интересов художника — тезаурус художника», «мир знаний и интересов бизнесмена — тезаурус бизнесмена» и т. п. В теории информации тезаурусом называют запас знаний (понятий, суждений), размещенных в памяти воспринимающего информацию субъекта. Это структурированное знание в виде понятий и смысловых отношений между ними, 2) тезаурус как материально существующий объект — словарь. Тезаурус — это словарь особого типа или идеографический словарь, в котором слова располагаются не по алфавиту, а по степени смысловой близости. Лексика языка представлена в них в виде систематизированных групп слов, в той или иной степени близких в смысловом отношении (синонимы, гиперонимы, гипонимы, антонимы, паронимы и др.). Тезаурус представляет собой упорядоченную совокупность лексических единиц, в которой в явном виде с помощью специальных помет отражены смысловые отношения (синонимические, родовидовые и ассоциативные) между лексическими единицами. Иными словами, упорядочение лексики в тезаурусе осуществляется не по алфавитному или другому формальному признаку, а по смысловому (семантическому). В основе построения идеографических словарей лежит логическая классификация всего понятийного содержания лексики. Систематизация слов в таких словарях основана на психологических ассоциациях предметов и понятий, называемых какой-либо лексической единицей. Лексические единицы группируются в семанические поля, в центре каждого из которых стоит слово, объединяющее другие слова, в той или иной степени близкие ему по значению или ассоциирующиеся с ним по смыслу (например: насекомое — муха, пчела, муравей, бабочка; ползать, летать, прыгать...). Как правило, слова и словосочетания внутри поля кратко толкуются таким образом, чтобы было видно, чем каждое из них отличается от всех других членов поля. Слова или словосочетания группируются на основании общности обозначаемых ими явлений действительности по определённым темам, например, «Животные», «Насекомые», «Дом», «Театр», «Улица», «Транспорт» и т. д. Так, в идеографическом словаре русского языка О. С. Баранова выделены 12 высших разделов идеографического словаря, среди которых: «порядок, природа, человек, деятельность, общество, культура» и др., каждый из которых делится на группы, подгруппы, отделы, разделы. Все слова в этом словаре собраны в гнезда по смыслу и группируются вокруг некоторого понятия, с которым они связаны чаще всего видовыми отношениями. Гнезда в свою очередь группируются в подразделы и т. д. Большинство гнездовых понятий имеют определения с явным указанием рода и вида (родовых и видовых сем). Приведем пример словарной статьи из этого словаря: 183.4.7 аромат ▲ запах ↑ ароматный аромат - приятный запах (например, запах цветов, травы, сена, нежный, пьянящий). ароматизация благоухание, благоухать благовоние амбре, фимиам Код слова «аромат» отражает принятую в данном словаре идеографическую классификацию, в частности, соотнесенность данного слова с категорией «183- Ощущения». Таким образом, термины «тезаурус», «идеографический словарь», «словарь типа тезаурус», в первую очередь означают, что совокупность слов языка в них представлена таким образом, что в одну группу слов входят слова, близкие по смыслу. Основное назначение идеографических словарей — описать совокупности лексических единиц, объединённых общим понятием; это облегчает читателю выбор наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком. Из истории тезаурусов. История возникновения тезаурусов восходит к великим мыслителям древности и, прежде всего, к Аристотелю. Ему принадлежат слова, возраст которых 2,5 тыс. лет: «Из сказанного без какой-либо связи, каждое (слово) означает или сущность, или «сколько», или «какое», или «по отношению к чему-то», или «где», или «когда», или «находиться в каком-то положении», или «обладать», или «действовать», или «претерпевать». Одной из наиболее древних попыток идеографических классификаций является труд Аристофана Византийского (директор Александрийской библиотеки, умер в 180 г. до н.э.). Во 11 в. н.э. появляется работа Юлия Поллукса «Ономастикон», составленная на материале греческого языка. Это словарь, состоящий из 10 книг. Каждая книга содержала слова, относящиеся к определенной теме. Например, в первой — слова, относящиеся к богам и царям; в седьмой — к теме «торговля», в десятой — к теме «утварь». Слова в этом словаре сопровождались краткими толкованиями. Между II и III в н.э. появляется санскритский словарь «Амарокоша», который содержал около 10 тыс. слов и состоял из трех книг, каждая из которых делилась на главы, главы — на секции. Так, первая книга была посвящена небу, богам и всему тому, что с ними связано. В ней имелись секции «времена года», «небесный свод» и т. п. Вторая книга содержала слова, относящиеся к земле, растительному и животному миру и человеку. Для лучшего запоминания толкования давались в стихотворной форме. Сам термин «тезаурус» был применен впервые в ХIII в. флорентийским ученым Брунетто Латини, который использовал его в заголовке своего труда — систематизированной энциклопедии, назвав ее «Книга о сокровище». Это вполне соответствовало семантике употребленного слова «Thesauros», т.е. «сокровище», «богатство», «запас». Современный этап истории идеографических словарей открывается работой П.М. Роже «Тезаурус английских слов и выражений» (1852 г.) Его тезаурус — это глубоко структурированная система, восходящая к самым общим категориям: абстрактные отношения, пространство, материя, дух. Всю понятийную область английского языка Роже разбивает на 4 класса: абстрактные отношения, пространство, материя и дух (разум, воля, чувства). Далее эти категории делятся на 24 класса, классы — на подклассы и т. д. Классы распадаются на категории, категории — на секции, секции — на группы. Всего у Роже 1000 понятийных групп, в каждую из которых он собирает слова, близкие по смыслу. Так, есть понятийные группы «рождение», «житель», «помещение», «удовлетворение». Почти в то же время (1862 г.) появился «Аналогический словарь французского языка» Буасьера. Отобрав две тысячи слов французского языка, которые составляют активный словарь (слова повседневного употребления), и, взяв каждое такое слово за основу, Ж. Галтье-Буасьер, собирает все слова, семантически с ним связанные. Интересные классификационные схемы, положенные в основу наиболее значительных идеографических словарей прошлого («Амарокоша», «Ономастикон», тезаурус П. М. Роже и др.) приводятся в разделе «Тезаурус» на сайте Rhymes. Области применения тезаурусов. Помимо применения в сфере информационных технологий и автоматизированной обработки текста тезаурусы могут быть использованы в различных областях гуманитарного знания: образование, журналистика, философия, культурология, право, социология, психология, лингвистика, а также при решении ряда прикладных задач в психиатрии, психодиагностике, криминалистике, рекламе, PR-технологиях, а также в целом ряде других областей знания и практической деятельности. Дадим краткую характеристику некоторым из этих областей применения. Обобщенное представление об основных областях применения современных тезаурусов в зависимости от их функционального назначения дает приведенная ниже таблица 3. Таблица 3 Основные области применения тезаурусов № Функциональное назначение тезауруса Область применения 1. Средство описания объектов (фактов, концепций, документов, музейных экспонатов и т. п.), инструмент информационного поиска АИС, Библиотеки, Музеи Архивы 2. Средство представления систем знаний (онтологий), отраженных в естественном языке Информатика, Компьютерная лингвистика Искусственный интеллект Инженерия знания 3. Инструмент теоретических исследований Семантика, Лингвистика Философия (Гносеология ), Культурология (межкультурные коммуникации), Социология Политология 4. Средство описания и упорядочения терминологии в какой-либо предметной области Терминоведение 5. Учебное пособие Система образования 6. Средство создания словесных и психологических портретов людей Психодиагностика, Криминалистика 7. Словарь, терминологический справочник Журналистика, Издательское и редакторское дело, Практика перевода, Система образования 8. Инструмент поиска средств воздействия на массовое сознание СМИ, PR-технологии, Реклама Основные категории пользователей тезаурусов. Назвать все области применения тезаурусов сложно, так же как и перечислить все категории специалистов, которым полезно обращение к тезаурусам. Тем не менее, попытаемся условно выделить две основные категории, исходя из противопоставления» «профессиональные» и «непрофессиональные» пользователи тезаурусов. Тезаурусы представляют собой ценный вид словарей, крайне необходимых широкому кругу пользователей, работающих со словом профессионально: лингвисты, писатели, поэты, журналисты, переводчики, редакторы, преподаватели-словисты, работники служб информации и библиотек и целый ряд иных специалистов. Для лингвистов тезаурусы являются источниками лингвистической информации и инструментом для описания и изучения языковой способности человека. Поэтому масштаб исследовательских задач, которые могут решаться лингвистами на базе тезаурусов чрезвычайно широк: извлечение знаний из текстов, компьютерный анализ документов, реферирование, классификация, поиск, машинный перевод, модели общения; коммуникация, диалог и др. Писателям, поэтам, журналистам, переводчикам, редакторам, издательским работникам тезаурусы необходимы при решении профессиональных коммуникативных задач. Этим специалистам, профессионально занятым подготовкой текстов, часто требуются получить ответ на следующие вопросы: как еще можно передать этот смысл другими словами? Какие слова могут сочетаться, а какие — нет? Как образнее, красочнее и точнее передать речь какого-либо персонажа своего произведения, или подыскать нужную рифму в стихе? Ответ на эти вопросы можно найти в тезаурусах, отражающих разнообразные сведения, связанные со словоупотреблением. Работники служб информации, библиотек, архивов, музеев используют информационно-поисковые тезаурусы для индексирования документов, фактов, запросов, описания иных объектов (архивных документов, музейных экспонатов и музейных коллекций) с целью последующего поиска информации. Тезаурусы могут полезны и для специалистов, профессионально занимающихся воздействием слова на массовое сознание, то есть тех, кто работает в сфере PR-технологий, рекламы. В заключение следует подчеркнуть, что тезаурусы как особая разновидность идеографических словарей, первоначально были органически связаны с фундаментальными проблемами познания, отображая представление о мире в целом и закономерностях его постижения средствами естественного языка. В дальнейшем области применения тезаурусов значительно расширились, распространяясь не только на теорию познания и лингвистику, но и на многие прикладные сферы деятельности людей: журналистику, издательское дело, терминоведение, образование, психодиагностику, криминалистику и др. Особое значение проникновение идей тезаурусного подхода имеет для информационной сферы и автоматизированных ИПС, где получили развитие информационно-поисковые тезаурусы, понимаемые как словари для построения поисковых образов документов и запросов, качество которых существенно влияло на качество поиска информации. Информационно-поисковые тезаурусы: назначение, структура и порядок разработки Среди тезаурусов, понимаемых как идеографические словари, в особую группу выделяются информационно-поисковые тезаурусы (ИПТ), появление и развитие которых связано с автоматизацией информационного поиска в середине ХХ в. ГОСТ 7.7496 «Информационно-поисковые языки. Термины и определения» определяет ИПТ следующим образом: «Информационно-поисковый тезаурус (ИПТ) — нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями». ИПТ не следует путать с дескрипторным словарем. Тот же ГОСТ 7.74-96 дает следующее разграничение этих понятий: «Дескрипторный словарь — словарь дескрипторного ИПЯ, в котором приведены в общем алфавитном ряду дескрипторы и их синонимы без указания других отношений лексических единиц. Дескрипторный словарь является упрощенным вариантом ИПТ, в котором зафиксированы преимущественно или только синонимические связи». Таким образом, термин «информационно-поисковый тезаурус» используется для обозначения словаря-справочника, в котором перечислены все лексические единицы дескрипторного ИПЯ с указанием их синонимов, а также явно выражены важнейшие смысловые отношения между дескрипторами». Следует подчеркнуть, что на практике, в инструктивно-методической литературе существует большая путаница в понятийном аппарате. Тезаурусом подчас называют любую классификацию, любой рубрикатор или даже список. Тем не менее, следует отличать ИПТ от словарей синонимов, антонимов и ассоциативных; от компьютерных словарных списков взаиморасположения терминов в документах, которые часто в литературе называют автоматизированными тезаурусами; от списков предметных заголовков и ключевых слов, если в них не выражены семантические отношения между терминами. ИПТ — это структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка. В соответствии с ГОСТ 7.25001 ИПТ ориентированы, прежде всего, на использование в рамках автоматизированных информационных систем и сетей научно-технической информации. Назначение ИПТ. Появление ИПТ неразрывно связано с развитием автоматизированных информационных систем (АИС). Первоначально целью создания ИПТ являлось повышение показателей качества поиска информации в АИС. В соответствии с этой целью назначение ИПТ заключалось в следующем: 1. Обеспечивать индексирование документов и запросов средствами дескрипторного языка путем замены ключевых слов соответствующими дескрипторами, а также осуществлять избыточное индексирование документов и/или информационных запросов за счет использования вышестоящих, нижестоящих и ассоциативных понятий; 2. Отражать парадигматические отношения, существующие между лексическими единицами какой-либо отрасли науки или техники. 3. Служить средством контроля и нормализации лексики конкретной отрасли знания, обеспечивать единое и формализованное представление информации в ИПС. Кроме того, ИПТ использовались и используются при традиционном (ручном) информационном поиске как средство терминологического контроля, позволяющее на основе эксплицитного представления парадигматических отношений между дескрипторами сужать или расширять область поиска, уточнять информационные запросы пользователей, осуществлять корректировку поисковых предписаний. Структура ИПТ. В соответствии с ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» в состав ИПТ входят следующие элементы: 1) вводная часть; 2) основная часть (лексико-семантический указатель); 3) дополнительные части (систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц). Обязательными составными частями являются вводная часть и лексико-семантический указатель. Допускается в состав ИПТ вводить приложения, содержащие дополнительные сведения о разработке и использовании ИПТ. Вводная часть включает титульный лист и введение. На титульном листе должны быть приведены наименование ИПТ, включающее термин «информационно-поис­ковый тезаурус» и указывающее область его применения; наименование организации-разработчика и дополнительные сведения об авторстве ИПТ; сведения о переиздании; место и год создания или издания ИПТ. Введение должно содержать: – цель создания и область применения тезауруса, описанные кодами и наименованиями рубрик Межгосударственного рубрикатора НТИ; – ссылки на источники, использованные для сбора лексики ИПТ; – ссылки на нормативные и методические документы, использованные при составлении ИПТ; – описание порядка составления тезауруса, включая обоснование представительности использованных источников лексики; – описание состава и структуры; – перечень отношений между лексическими единицами и методические основания для их установления; – перечень всех символов и специальных сокращений, допущенных для представления; – порядок алфавитного расположения (расположение букв разных алфавитов, небуквенных символов и др.); – количественные характеристики тезауруса (общее число статей, число дескрипторов, аскрипторов и др.); – описание состава и формы представления дополнительных данных в словарных статьях; – абзац следующего содержания: «Тезаурус подготовлен в соответствии с ГОСТ 7.25». Введение к последующим изданиям (версиям) ИПТ дополнительно должно содержать: – обоснование необходимости составления новой версии тезауруса; – указание на характер внесенных изменений. Лексико-семантический указатель — это упорядоченная последовательностью словарных статей ИПТ, сформированная путем расположения их в алфавитном порядке заглавных лексических единиц. Представляет собой алфавитный перечень всех дескрипторов и аскрипторов с их словарными статьями. Приведем фрагмент лексико-семантического указателя из ИПТ по швейной промышленности: КУРТКИ 2302 в Изделия костюмные Изделия пальтовые Изделия швейные н Куртка двубортная Куртка комбинированная Куртка спортивная КУСОК ТКАНИ 2203 с Отрез в Меры упаковочные а Выпада межлекальные Лоскут Метраж ткани Остатки материала Отходы материала «Полотна красные» Рулон ЛАВСАН 2304 в Волокно полиэфирное Волокна синтетические ЛАСТИК ЖАККАРДОВЫЙ 2304 в Ткани подкладочные Ткани ЛЕКАЛА 2305 с Выкройки Чертежи кроя н — Лекала рабочие — Лекала-эталоны а Развертка поверхности Трафареты Шаблоны Лекала вспомогательные см Лекала производные Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с обозначением видов связи. В рамках дескрипторной статьи термины располагают в следующем порядке: • заглавный дескриптор; • дополнительные данные; • лексическое примечание; • аскрипторы или дескрипторы-синонимы; • вышестоящие дескрипторы; • нижестоящие дескрипторы; • ассоциативные дескрипторы; • дескрипторы, связанные другими видами отношений. Внутри каждой группы лексических единиц, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Например: АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ с языки алгоритмические машиноориентированные языки проблемноориентированные языки в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ФОРМАЛЬНЫЕ ЯЗЫКИ н АВТОКОДЫ АЛГОЛ ИПЛ КОБОЛ КОМИТ ПЛ/1 ФОРТРАН а АЛГОРИТМЫ ПРОГРАММИРОВАНИЕ ср искусственные языки Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Приведем примеры аскрипторных статей: Алфавитно-цифровые знаки исп к БУКВЫ ЦИФРЫ Языки исп а ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ Языки программирования см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ Словарная статья может также включать указание на частоту использования дескриптора; кодовый номер дескриптора; код дескриптора по систематическому указателю; классификационные индексы; дополнительные семантические и лексикографические пометы; иноязычные эквиваленты. Качество лексико-семантического указателя определяется полнотой включенных в него лексических единиц. Полнота понимается как вероятность вхождения в тезаурус любого информативно-значащего слова для данной тематической области. Полнота лексико-семантического указателя, а, следовательно, и всего тезауруса оказывает существенное воздействие на результаты индексирования документов и запросов. Дополнительные части могут включать в свой состав систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц. Систематический указатель — это указатель, в котором дескрипторы сгруппированы согласно принятой в ИПТ рубрикации. Систематический указатель определяет тематическое направление тезауруса, раскрывает его содержание и отражает те отрасли науки и техники, по которым можно с той или иной глубиной детализации проводить поиск. Необходимость его как составной части ИПТ обусловлена тем, что он дает наглядное представление об общем состоянии терминологии в той или иной области знаний, позволяет построить стройную терминологическую модель и учесть по возможности все термины и понятия, которые должны найти место в тезаурусе. Он предназначен для облегчения поиска терминов при составлении поисковых образов документов и запросов путем упорядочения множества дескрипторов и аскрипторов по предметному признаку. Например, в ИПТ технологии машиностроения, в лексико-семантическом указателе имеется дескрипторная статья: ГИСТЕРЕЗИС 1913 н Гистерезис диэлектрический Гистерезис магнитный Код заглавного дескриптора 1913 показывает связь лексико-семантического указателя с систематическим указателем ИПТ. Первые две цифры отражают первый уровень иерархии — дескрипторную область «19 Физика», к которой относится данный термин. Вторые две цифры отражают второй уровень иерархии в этой области — дескрипторную группу «1913 Электричество и магнетизм». Таким образом, становится ясно, что термин «Гистерезис» связан с электричеством и магнетизмом, и входит в состав терминологии физики. Пользуясь систематическим указателем, можно определить, термины каких областей знания используются в данном ИПТ. Так, ИПТ по технологии машиностроения включает термины из таких предметных областей, как «Строительство», «Физика», «Химия», «Электротехника и радиоэлектроника» и др. Систематический указатель, по существу, представляет собой классификационную схему наполнения тезауруса терминологией, так как он строится путем упорядочения множества дескрипторов по предметно-тематическим областям. Систематические указатели ИПТ подразделяют на три типа: тематические, категориальные, смешанные. Такое деление отражает принцип построения классификационной схемы систематического указателя. Основные функции, выполняемые систематическим указателем ИПТ: – использование в качестве вспомогательного средства при индексировании, обеспечивающее, прежде всего, возможность поиска дескрипторов для индексирования понятий, не представленных в тезаурусе в явном виде (поисковая функция); – использование в процессе ведения тезауруса (функция ведения ИПТ); – использование в качестве структурной основы ИПТ, как средство управления его разработкой (конструктивная функция). В соответствии с ГОСТ 7.252001 при построении систематического указателя тематического и смешанного типов в его тематической части следует использовать рубрики Межгосударственного рубрикатора НТИ или рубрикатора конкретной АСНТИ, совместимого с Межгосударственным рубрикатором НТИ. При построении систематического указателя категориального и смешанного типов в его категориальной части следует использовать следующие общие категории: – названия дисциплин и отраслей деятельности; – предметы, материалы; – методы, процессы, операции, явления; – свойства, величины, параметры, характеристики; – отношения, структуры, модели, законы, правила, абстрактные понятия. Иерархический указатель. Иерархический указатель — указатель, в котором дан перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. Он отражает полную структуру иерархических отношений в ИПТ. После каждого дескриптора приводятся дескрипторы с указанием их уровня в иерархии путем применения нумерации либо графического обозначения уровня. Например: Консервирование •Консервирование антисептиками • Консервирование инертными газами • Консервирование продовольствия •• Вяление ••Квашение ••Копчение •• Маринование •• Посол (соление) Консервирование 1 Консервирование антисептиками 1 Консервирование инертными газами 1 Консервирование продовольствия 2 Вяление 2 Квашение 2 Копчение 2 Маринование 2 Посол (соление) Необходимость разработки иерархического указателя ИПТ бывает вызвана тем, что в словарных статьях ИПТ не закрепляется вся система подчиненности понятий, т.к. это повлекло бы за собой значительное увеличение лексико-семантического указателя. Отсюда возникает необходимость разработки самостоятельного раздела ИПТ — иерархического указателя, который бы отражал всю иерархическую цепочку подчиненности дескрипторов сверху донизу. Пермутационный указатель — указатель, в котором в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы и для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Следовательно, каждый термин встречается в пермутационном указателе столько раз, сколько значащих слов он содержит. Назначение пермутационного указателя — обеспечивать поиск дескрипторов-словосочетаний по любому слову, входящему в их состав, в том числе и по тем, которые не стоят в начале лексической единицы. Он позволяет группировать в одном месте однокоренные слова. Как правило, пермутационный указатель составляется автоматизированным способом и имеет обычно вид указателя типа KWIC (Key Word — In Context — «Ключевые слова в контексте»), в котором все значащие слова — элементы терминов — располагаются в алфавитном порядке. Вход в пермутационный указатель находится в центре колонки, которую образуют микроконтексты элементов терминов, а неуместившаяся часть терминов переносится в левую часть той же строки. оптические квантовые возбуждения электрические с зависимым возбуждением ГЕНЕРАТОРЫ помех ГЕНЕРАТОРЫ последовательного ГЕНЕРАТОРЫ постоянного тока ГЕНЕРАТОРЫ постоянного тока Включение в ИПТ пермутационного указателя позволяет устранить повторы, выявить и ликвидировать омонимию, получить высокий уровень накопления терминов, связанных родовидовыми и ассоциативными отношениями, выявить не представленные полностью группы однородных понятий и дополнить их, ввести пропущенные понятия. Создание пермутационного указателя позволяет решить проблему инверсии прилагательного и существительного. Независимо от того, какое слово использовано для входа в указатель, термин будет найден с принятым для него порядком слов. Кроме того, весьма важен тот факт, что в пермутационном указателе все термины, содержащие одинаковые слова, собраны вместе, что дает при поиске нить к тем терминам, которые потенциально могут оказаться необходимыми. Порядок разработки, экспертизы, регистрации и ведения ИПТ. В настоящее время порядок разработки, экспертизы и регистрации ИПТ определяется двумя стандартами: ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» и ГОСТ 7.242007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». В соответствии с этими стандартами функции экспертизы и регистрации ИПТ выполняют национальный и международный депозитарные фонды. Национальный депозитарный фонд ИПТ на русском языке (включая ИПТ, содержащие эквиваленты дескрипторов на русском языке) находится в Москве, в ВИНИТИ. Существует также два международных депозитарных фонда ИПТ: 1) международный депозитарный фонд ИПТ на английском языке, включая ИПТ, содержащие эквиваленты дескрипторов на английском языке. Он находится в Канаде, в г. Торонто, в библиотеке факультета информационных наук Университета в Торонто (Thesaurus Clearinghouse — «расчетная палата», The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada); 2) международный депозитарный фонд ИПТ на всех других языках, кроме английского. Он находится в Польше, в Варшаве, в институте научной и технико-экономической информации (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poland). ГОСТ 7.252001 и ГОСТ 7.242007 определяют последовательность действий разработчиков ИПТ следующим образом: 1. До начала работ по созданию ИПТ разработчик должен обратиться в соответствующий национальный или международный депозитарный фонд с целью определения наличия зарегистрированных тезаурусов по заданной тематике. При наличии таких тезаурусов проводят оценку возможности внедре­ния их в данной системе. Если такие тезаурусы не обнаружены, разработчик может приступать к созданию ИПТ. При этом вся технология работы по созданию ИПТ должна строго соответствовать ГОСТ 7.252001 и ГОСТ 7.242007. 2. Готовые (разработанные) ИПТ должны пройти экспертизу на соответствие ГОСТ 7.252001. Если они соответствуют стандарту, то Национальный депозитарий выдает разработчику сертификат соответствия. После этого ИПТ депонируется (сдается на хранение) в соответствующем национальном или в одном из международных депозитарных фондов (в Торонто или Варшаве). Национальные депозитарии распространяют информацию о составе фонда депонированных ИПТ и предоставляют их разработчикам новых ИПТ с целью заимствования элементов и обеспечения совместимости лингвистического обеспечения различных информационных систем. Таким образом, они выполняют функции экспертизы, регистрации, хранения ИПТ и информирования об имеющихся ИПТ. Ведение ИПТ. Следует помнить, что тезаурус никогда не может считаться вполне законченным, так как его содержание, объем и форма постоянно изменяются в связи с развитием науки, техники и производства. Среди причин, требующих периодически корректировать ИПТ, можно назвать: – количественные и качественные изменения документального потока, поступающего в систему (например, появление нового тематического направления или поступление новых типов документов или, наоборот, прекращение их поступлений); – изменение режимов поиска в системе; изменение средств реализации АИС (например, внедрение более мощных компьютеров нового поколения, позволяющих автоматизировать многие операции по ведению ИПТ); – переход АИС от независимого функционирования к работе в режиме сети (при использовании ИПТ в рамках единой информационной сети принципы их ведения должны быть согласованы). Процедура поддержания ИПТ в рабочем состоянии называется ведением или корректировкой тезауруса. Обычно она включает следующие операции: – изменение лексического состава ИПТ: внесение новых лексических единиц, их удаление, изменение статуса лексических единиц (перевод ключевого слова в дескрипторы и наоборот); – изменение парадигматических отношений в ИПТ (усиление, дифференциация, ослабление); – переиздание ИПТ, которое рекомендуется производить следующим образом: второе и третье издание — через год, а последующие — через два-три года. Процедура ведения ИПТ предполагает обязательное использование средств автоматизации, позволяющих оперативно производить такие трудоемкие операции, как алфавитная сортировка словника, частотный анализ лексики, проверка взаимности и непротиворечивости ссылок, с помощью которых в ИПТ фиксируются парадигматические отношения и др. Виды и функции информационно-поисковых тезаурусов В настоящее время существует значительное число информационно-поисковых тезаурусов (ИПТ), разработанных как у нас в стране, так и за рубежом. В 70-90-е гг. ХХ в. в нашей стране было разработано свыше 200 ИПТ. Их созданием занимались как всесоюзные, центральные отраслевые, так и территориальные (региональные) информационные органы. В целях устранения дублирования и непроизводительных затрат на подготовку ИПТ во ВНИИКИ была создана автоматизированная система ведения информационных языков (АСВИЯ), призванная осуществлять учет, контроль и информирование о всех ИПЯ, которые эксплуатируются в отечественных АСНТИ. В рамках АСВИЯ был создан фонд ИПТ, на базе которого эта служба вела справочно-информационное обслуживание всех заинтересованных учреждений и организаций. Однако после распада СССР АСВИЯ прекратила свое существование. В настоящее время вся полнота информации об отечественных ИПТ сосредоточена в Национальном депозитарном фонде ИПТ на русском языке, который находится в Москве, в ВИНИТИ. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных (БД) Thesaurus Guide, содержащая сведения о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. Эта БД содержит сведения о 654 тезаурусах, доступных на одном из официальных языков Европейского сообщества. Таким образом, и у нас в стране, и за рубежом разработаны сотни ИПТ. Несмотря на некоторое снижение интереса к ИПТ в 90-е гг. ХХ в., в настоящее время наблюдается активизация исследований и разработок в сфере ИПТ, расширяются области их применения. Поэтому важно знать о том, какие виды отечественных и зарубежных ИПТ существуют. Многоаспектная классификация ИПТ. Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды ИПТ: 1. По широте тематического охвата: 1.1. Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М.В. Ломоносова. Содержит терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы. Тезаурус включает 62 тыс. терминов, более 26 тыс. понятий, отражает около 100 тыс. отношений между понятиями. 1.2. Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 1980-е гг. Кемеровским ЦНТИ (по технологии машиностроения, сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии. 1.3. Узкоотраслевые или проблемные тезаурусы, предназначенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А. А. Денисовой, тезаурус терминов по морскому делу и парусному туризму, составителем которого является В. Н. Белозеров и др. 2. По назначению различают: 2.1. Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения. Базисные тезаурусы служат для выполнения следующих целей: • для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями; • для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики; • для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ. Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний. 2.2. Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигматические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следовательно, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тематики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания. 3. По системности построения различают: 3.1. Комплексы ИПТ. Комплекс ИПТ — это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике. Можно выделить комплексы тезаурусов, подготовленных в советский период всесоюзными органами информации, такими, как ВИНИТИ, ВНТИЦентр, ИНИОН. Комплексы ИПТ разрабатывались в этот период также и центральными отраслевыми органами информации: ЦНИИТЭИПриборостроения, ЦНИИ «Румб», ЦНИИТЭИ «Союзсельхозтехника», ЦНИИТЭИЧермет, ЦНИИТЭИПищепром и др. Вели разработку комплексов ИПТ и территориальные информационные центры. Например, в 80-е годы ХХ в. был разработан комплекс тезаурусов Кемеровского межотраслевого ЦНТИ. Он включал ИПТ по одиннадцати отраслям народного хозяйства: горное дело, технология машиностроения, сельское хозяйство, черная металлургия, общие вопросы химической технологии, электротехника, лесное хозяйство, молочная промышленность, швейная, хлебопекарная промышленность. В постсоветский период в ИНИОН была осуществлена разработка серии тезаурусов по социальным и гуманитарным наукам: «Экономика и демография», «Философия», «Языкознание», «Правоведение», «Социология», «Политология», «Гендерные исследования», «Религиоведение». Среди зарубежных разработок следует назвать комплекс тезаурусов Фонда Гетти (США). Основателем фонда и самого крупного художественного музея в Калифорнии — музея Гетти (J. Paul Getty Museum) является американский нефтяной магнат, миллиардер Дж. Пол Гетти (18921976 гг.). Оставленное им на нужды музея и фонда многомиллиардное состояние сделало музей Гетти самым состоятельным приобретателем произведений «старых мастеров» и античной скульптуры на самых престижных мировых аукционах, а также позволило Фонду Гетти финансировать создание комплекса лингвистических средств, в состав которых входят следующие словари-тезаурусы: • тезаурус по искусству и архитектуре (The Art and Architecture Thesaurus — AAT). В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более 130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство, архитектуру, декоративное искусство, материальную культуру, архивные материалы с античности до наших дней; • словарь имен авторов (The Union List of Artist Names — ULAN), включающий 375000 имен, биографическую и библиографическую информацию о художниках и архитекторах, содержащий варианты имен, псевдонимов и вариантов написания имен на разных языках; • тезаурус географических названий (The Getty Thesaurus of Geographic Names — TGN), включающий около 1115000 названий, типов местностей, координат, описательных заметок, фокусирующихся на местах, важных для изучения искусства и архитектуры. 3.2. Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких ИПТ могут служить «Тезаурус по теоретической и прикладной лингвистике», разработанный С. Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А.А. Денисовой и др. 4. По особенностям состава лексики и внутриструктурного построения ИПТ: 4.1. ИПТ, включающие в свой состав в качестве лексических единиц как дескрипторы, так и аскрипторы. 4.2. ИПТ, включающие в свой состав в качестве лексических единиц только дескрипторы. 4.3. Фасетизированные ИПТ — ИПТ, созданные на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно использовалось школой ленинградских исследователей под руководством профессора А. В. Соколова, предложившего фасетно-блочный метод построения тезаурусов. Реализация данного метода была осуществлена в 80-е гг. ХХ в. в комплексе ИПТ, созданных в научно-исследовательском секторе ЛГИК им. Н. К. Крупской. К ним относятся ИПТ по культурному строительству, библиотечному делу и библиографии, культурно-просветительной работе, музейному делу; тезаурус по целлюлозно-бумажной промышленности для АСНТИ «Папирус», ИПТ «Судоходство», «Морские порты» и др. Фасетный принцип использовался также при создании нефтегазового ИПТ. В этом отраслевом тезаурусе терминология по нефти и газу была сгруппирована по пяти фасетам: «Вещества», «Объекты», «Процесс», «Характеристики», «Идентификаторы (Имена собственные)». Фасетный принцип построения был использован при разработке Тезауруса по архитектуре и искусству — The Art and Architecture Thesaurus (AAT), развиваемого фондом П. Гетти для описания предметов материальной культуры. Дескрипторы тезауруса (около 30 тыс.) подразделяются на 7 фасетов: ассоциированные понятия, физические свойства, стили и периоды, агенты (люди и организации), деятельность, материалы, объекты, Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус. 5. По количеству естественных языков, перевод с которых на дескрипторный ИПЯ обеспечивает ИПТ: 5.1. Одноязычные ИПТ. Как следует из их названия, такие ИПТ отражают лексику только на одном из естественных языков: либо русском, либо английском, испанском и т. д.. Разработка отечественных одноязычных ИПТ регламентируется ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 5.2. Многоязычные ИПТ. Они содержат лексические единицы, взятые из нескольких естественных языков и представляющие эквивалентные по смыслу понятия на каждом из этих языков. Их основное назначение — обеспечение языковой совместимости национальных информационных систем в рамках международного информационного сотрудничества. Представление многоязычных ИПТ должно соответствовать требованиям оформления, установленным ГОСТ 7.242007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». Примером многоязычного ИПТ может служить трехязычный «Тезаурус по социальным наукам», разработанный в результате совместного проекта Информационного центра по социальным наукам в Бонне (Германия) и Института научной информации по общественным наукам (ИНИОН РАН) в России. Целью проекта было преодоление языкового барьера при поиске информации в немецких и русских банках данных. Тезаурус отражает широкий диапазон политематической терминологии (социология, политическая наука, социальная психология, экономика и право, этнология, социальная история, демография и др.) на немецком, английском и русском языках. Необходимость разработки и использования многоязычных ИПТ обусловлена следующими факторами: • увеличением числа иноязычных документов в АИС. В этом случае создание многоязычных ИПТ обеспечивает их поиск без предварительного перевода; • изменением состава потребителей, при котором в АИС начинают поступать иноязычные запросы; • международным кооперированием двух или нескольких национальных информационных центров разных стран. В этом случае наличии единого многоязычного тезауруса обеспечивает возможность индексирования документов по одной тематике; • созданием международных центров обмена информацией. • Следует отметить, что создание многоязычных ИПТ чаще всего связано с деятельностью международных организаций. Например: • Тезаурус ООН или — тезаурус ЮНБИС (UNBIS Thesaurus) — содержит терминологию на всех официальных языках Организации Объединенных Наций (арабском, китайском, английском, французском, русском и испанском), используемую в качестве дескрипторов при анализе и поиске документов ООН. Тезаурус отражает широкий круг вопросов, которыми занимается ООН и предназначен для точного и четкого обозначения объектов поиска информации с учетом специфики предмета; • тезаурус ЮНЕСКО по образованию (UNESCO: IBE education thesaurus), содержащий термины на английском, французском и испанском языках; • тезаурус Европейского Сообщества — тезаурус EUROVOC, содержащий лексику на девяти языках; • сельскохозяйственный тезаурус AGROVOC, разработанный международной Продовольственной и сельскохозяйственной организацией ООН — ФАО (от англ. Food and Agriculture Organization, FAO)и Европейским сообществом ЕС, содержит лексику на английском, французском и испанском языках. Он доступен пользователю в FAO, варианты на других языках (чешский, немецкий, итальянский и португальский) существуют в соответствующих центрах AGRIS (Agricultural Research Information System — Международная информационная система по сельскому хозяйству и смежным с ним отраслям). • Тезаурус Организации сотрудничества железных дорог — «Информационно-поисковый тезаурус «Транспорт»», отражающий терминологию на русском, немецком и китайском языках. Таким образом, многоязычные ИПЯ являются средствами преодоления языкового барьера и обеспечивают возможность кооперации информационных центров и АИС различных стран. 6. По форме представления: 6.1. ИПТ в печатном виде. Представление ИПТ в печатном виде должно соответствовать требованиям оформления, установленным ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 6.2. ИПТ на электронных носителях, представленные на компакт-дисках, в форме электронных сетевых версий и др. При представлении ИПТ на машиночитаемых носителях формат записи должен соответствовать ГОСТ Р 7.0.472008. (ИУС 52008) «Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи». Представление ИПТ на видеотерминалах должно соответствовать основным требованиям оформления, установленным ГОСТ 7.252001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации. Следует подчеркнуть, что компьютерная реализация ИПТ повлекла за собой не только изменение формы их представления. Она обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ. 7. По знаковой природе информации. 7.1. Текстовые ИПТ — ИПТ, большую часть объема которых занимает словесный текст. Это наиболее распространенная и многочисленная группа тезаурусов. 7.2. Визуальные ИПТ — ИПТ, значительную часть которых занимают изображения (формулы, карты, схемы, чертежи, диаграммы, пиктограммы, иллюстрации и т. п.). Современные информационно-коммуникационные технологии позволяют не только наглядно представить парадигматические отношения между словами, но и обеспечить мгновенный переход от слова к дефиниции, от слова к слову и т. д. Примеры организации такого словаря можно найти на сайте проекта «Визуальный словарь». Разработка визуальных тезаурусов находится в стадии становления. Особо перспективны они для использования в АИС, в которых визуальная информация является семантически не менее (а иногда — и более) важной, чем вербальные, словесные компоненты документов. Наиболее яркими примерами являются АИС в области химии, где требуется вести поиск по структурам химических соединений и структурным формулам, в геоинформационных системах, требующих поиска картографической информации. Особую актуальность создание визуальных ИПТ приобретает в сфере лингвистического обеспечения музейных АИС для описания музейных коллекций. 7.3. Смешанные ИПТ, сочетающие текст и изображение. В обобщенном виде основные виды ИПТ отражает таблица 4. Таблица 4 Многоаспектная классификация ИПТ № Основание деления Вид ИПТ 1. Широта тематического охвата 1.1. Политематические (многоотраслевые) 1.2. Отраслевые 1.3. Узкоотраслевые (проблемные) 2. Назначение 2.1. Базисные (базовые) 2.2. Рабочие ИПТ 3. Системность построения: 3.1. Комплексы ИПТ. 3.2. Отдельные ИПТ 4. Особенности состава лексики и внутриструктурного построения 4.1. ИПТ, включающие дескрипторы и аскрипторы 4.2. ИПТ, включающие только дескрипторы 4.3. Фасетизированные ИПТ 5. Количество естественных языков 5.1. Одноязычные ИПТ 5.2. Многоязычные ИПТ 6. Форма представления 6.1. ИПТ в печатном виде 6.2. ИПТ на машиночитаемых носителях 7. Знаковая природа информации 7.1. Текстовые ИПТ 7.2. Визуальные ИПТ 7.3. Смешанные Приведенная выше классификация видов ИПТ во многом условна, поскольку на практике реальные ИПТ обладают одновременно множеством признаков. Многоаспектная классификация позволяет вычленять различные признаки ИПТ, отражающих множество разных задач, которые решаются с помощью тезаурусов. Функции информационно-поисковых тезаурусов Несмотря на множество различных областей применения ИПТ, можно выделить основные функции, которые присущи всем без исключения тезаурусам: 1) терминологическая — любой тезаурус отражает терминологию той или иной предметной области (отрасли знаний или их совокупности); 2) систематизирующая — любой тезаурус отражает систему понятий и терминов определенной предметной области (отрасли знаний или их совокупности) и показывает их взаимосвязи через систему помет (например, синоним, выше, ниже и т. п.); 3) навигационная — любой тезаурус позволяет оперативно ориентироваться в терминологии даже в незнакомой предметной области за счет явного выражения парадигматических отношений в структуре дескрипторной статьи; 4) регламентирующая (нормативная) — любой тезаурус содержит в своем составе нормализованные лексические единицы за счет устранения явлений синонимии и многозначности; 5) технологическая, присущая преимущественно ИПТ, которые обеспечивают реализацию технологии индексирования документов и запросов с целью обеспечения поиска информации в АИС. Резюме Дескрипторные ИПЯ по сравнению с иерархическими классификационными ИПЯ относятся к классу более «молодых» искусственных языков, появление которых неразрывно связано со становлением идей автоматизации информационного поиска в 50-е гг. ХХ в. Способ координации понятий, принцип координатного индексирования, лежащий в основе этих языков, предопределил выделение таких двух типов ИПЯ, как предкоординатные (ДКД, УДК, МПК, ББК, рубрикаторы, классификаторы и др.) и посткоординатные (язык «Унитерм», язык ключевых слов, ДИПЯ). В отличие от предкоординированных ИПЯ, лексика которых носит кодированный характер, языки координатного типа являются вербальными (словарными). Они оперируют лексикой первого уровня интеграции, что позволяет достичь большей гибкости и многоаспектности при передаче смысла документа или запроса при индексировании. Средством контроля лексики и способом материального воплощения ДИПЯ являются информационно-поисковые тезаурусы (ИПТ) — разновидность идеографических словарей. ИПТ представляют собой упорядоченную совокупность лексических единиц, в которой в явном виде с помощью специальных помет отражены важнейшие парадигматические отношения. ИПТ создавались для повышения показателей качества поиска информации в АИС. Они предназначались для индексирования документов и запросов, служили средством терминологического контроля и нормализации лексики конкретной отрасли знания, обеспечивали единое и формализованное представление информации в АИС, давали возможность уточнять информационные запросы пользователей, осуществлять корректировку поисковых предписаний. Оценка возможностей ИПТ как средств лингвистического обеспечения автоматизированного поиска информации существенно менялась на разных этапах развития АИС. Если в 6080 гг. ХХ в. их значение и эффективность не подвергались сомнению, то в 90-е гг. ХХ в. в условиях стремительного развития Интернет целесообразность применения ИПТ при поиске в полнотекстовых базах данных была подвергнута сомнению. Начиная с первого десятилетия ХХI в. эта негативная оценка сменилась на более взвешенную, ИПТ вновь признаны как важное средство повышения полноты и точности поиска информации. При этом к ИПТ, призванным обеспечивать поиск информации в условиях Интернета, предъявляются более сложные требования. Они должны характеризоваться: расширением числа синонимов, включенных в тезаурус, иметь более детальное описание многозначных терминов; парадигматические отношения между дескрипторами в тезаурусе должны быть максимально детализированы. В настоящее время существует значительное количество ИПТ, разработанных как в нашей стране, так и за рубежом. Многоаспектная классификация ИПТ позволяет группировать их по таким признакам, как широта тематического охвата, назначение, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, на которые ориентирован ИПТ, форма представления, знаковая природа информации, использованная в ИПТ. ИПТ играют чрезвычайно важную роль в лингвистическом обеспечении АИС, выполняя целый ряд функций: терминологическую, систематизирующую, навигационную, регламентирующую, технологическую. Возрастание мощи и быстродействия компьютерной техники, систем связи и телекоммуникации обеспечили интенсивное развитие не только информационно-поисковых тезаурусов как средств поиска информации, но тезаурусов в целом, как словарей идеографического типа. Возникнув как средство формализованного отображения представлений ученых о мире в целом и закономерностях его постижения средствами естественного языка, тезаурусы сегодня широко используются для решения прикладных задач в целом ряде областей знания и практической деятельности. Помимо применения в сфере информационных технологий и автоматизированной обработки текста, тезаурусы получили распространение в различных областях знания, включая образование, философию, культурологию, социологию, психологию, лингвистику, а также при решении ряда прикладных задач в психиатрии, психодиагностике, криминалистике, рекламе, PR-технологиях и др.
«Дескрипторные информационно-поисковые языки (ИПЯ).» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Тебе могут подойти лекции

Смотреть все 58 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot