Одной из первых проблем (после выбора и сужения тематики), с которой я столкнулся при подготовке лекции, стало традиционное размышление о названии. Камнем преткновения выступило понятие «когнитивного тезауруса«, для которого сходу не удалось найти адекватного перевода. При этом сначала встал вопрос о том, что такое когнитивный тезаурус, но чуть позже возникли сложности с переводом слова «тезаурус» в общем смысле.
За все время моего увлечения компьютерной лингвистикой я несколько раз пытался четко определить это понятие на основе имеющейся литературы, однако каждый раз я наталкивался на «мутное поле», которое только разрасталось с появлением новых публикаций, стандартов, технологий и т.д. Фактически, понятие «тезаурус» стало неким модным словечком (в полном смысле этого слова), т.е. постоянно изменяющимся и сильно зависящим от контекста (среды ученых, области применения и т.д.).
Пожалуй, самой первой, принятой мной трактовкой этого слова стало что-то вроде «универсальный словарь, имеющий много входов». Такое понимание сформировалось у меня под влиянием книги Ю.Н.Караулова «Лингвистическое конструирование», где представлена очень интересная типология словарей и принципы их построения. К сожалению, сейчас под рукой нет этой книги, но надо будет еще раз внимательно посмотреть соответствующие определения. Таким образом, для меня первым значением понятия тезауруса стала лингвистическая и очень абстрактная формулировка, которая позволяет под тезаурусом понимать почти любую лексикографическую конструкцию ))
Не вдаваясь в подробности захватывающего процесса развития семантики этого слова в моем сознании на протяжении ряда лет, хочу отметить только то, что многогранность тезауруса фиксировалась у меня только по необходимости, когда нужно было объяснить или сопоставить отблески «сокровищ» с “тенями и отражениями» других «жителей» лингвистического мира, области ИИ и провинции semantic Web.
С онтологиями же происходила обратная история. Появление понятия (я сознательно не использую слово термин) и его активное использование за рамками философии у меня началось уже после того, как были сформированы многие понятия в области инженерии знаний, искусственного интеллекта и соответствующих формальных моделей. В связи с этим в своих лекциях по интеллектуальным системам я говорю об онтологиях как о новой форме (аватаре) псевдофизических логик, направленных на формализованное отражение специфики предметной области. Вместе с тем на практике онтологию часто приравнивают к существующим и широко распространенным моделям представления знания (семантическим сетям, фреймам, продукциям, логике предикатов и др.). Таким образом, использование нового лэйбла «онтология» скорее дань моде и обусловлена как говорит Александр Нариньяни «склонностью области ИИ к постоянному заимствованию ярких этикеток». Возможно в будущем мы сможем говорить об онтологиях как о полноценных моделях бытия, его основах, принципах, структуре и закономерностях, но сегодня мы видим лишь небольшие и очень скромные проекции этого.
Сейчас, думая о том, как объяснить все это (и стоит ли) потомкам кельтов, я попытался обобщить и прокомментировать ряд найденных ссылок.
- Википедиа порой оказывается очень полезным ресурсом, но в этот раз почти по всем статьям выявилось сильное несоответствие статей на русском и английском. Но начать можно и с них, обязательно изучив связанные базовые понятия. Важно также не забыть улыбнуться фразе: «…Слово «Роже» в названии тезауруса не является объектом авторского права…».
- Рекомендую всем почитать учебное пособие В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич «Онтологии и тезаурусы», 2006 г.
http://window.edu.ru/window_catalog/pdf2txt?p_id=18880 – здесь можно скачать PDF-версию
http://www.intuit.ru/department/expert/ontoth/ — здесь можно дистанционно изучить соответствующий курс и даже получить диплом
http://company.yandex.ru/academic/class2006/solovyev.xml — здесь можно посмотреть как авторы переложили курс/книгу в слайд-лекции
В книге тезаурусы рассматриваются как типы онтологий со ссылкой на классификацию, представленную в работах Lassila O, McGuiness D.
Интересной особенностью данной классификации является то, что тезаурусы в схеме ниже по уровню формализованности, чем таксономии, которые в отличие от «груды сокровищ» всегда имеют стройную многоуровневую иерархическую организацию. Беглый поиск не позволил мне подтвердить первоисточник, но в дремучем лесу схем и картинок мне удалось по соответствующим ключевым словам найти похожую, но все же отличающуюся схему. В ней тезаурус стоит выше по своей интероперабельности, выразительности и судя по всему формализованности.
Вместе с тем авторы отдельно выделяют класс «лингвистических онтологий», иллюстрируя его замечательной цитатой известного британского лингвиста Йорика Вилкса, что
«несмотря на то, что все авторы статей по онтологиям подчеркивают, что понятия являются кирпичиками любой онтологии, мы манипулируем понятиями посредством слов. Во всех онтологиях, которые известны, слова используются, чтобы представлять понятия. Следовательно, то множество явлений в мире, которые не вербализованы, не могут быть смоделированы. Мы можем описать это явление как Онтологическая гипотеза Сепира-Уорфа, то есть то, что не описывается словами, не может быть отражено в онтологии…».
Далее авторами отмечается, что
«главной характеристикой лингвистических онтологий является то, что они связаны со значениями (“are bound to the semantics”) языковых выражений (слов, именных групп и т.п.). Лингвистические онтологии охватывают большинство слов языка, и одновременно имеют онтологическую структуру, проявляющуюся в отношениях между понятиями. Лингвистические онтологии могут поэтому рассматриваться как особый вид лексической базы данных и особый тип онтологии. Лингвистические онтологии отличаются от формальных онтологии по степени формализации. Поэтому предполагается, что разработчики такого рода ресурсов разрабатывают иерархию лексических значений естественного языка, а для более строгого описания знаний о мире необходимо сопоставить такие ресурсы с какими-либо формальными онтологиями.
Так, содержанием одного из проектов является установление отношений между WordNet и EuroWordNet, c одной стороны, и формальной онтологией SUMO — Standartized Upper Merged Ontology, с другой стороны. Проект состоит в том, чтобы установить соответствие между синсетами WordNet и понятиями онтологии, при котором каждый синсет WordNet либо напрямую сопоставляется с понятием онтологии, либо является гипонимом для некоторого понятия, либо примером понятия онтологии.
Участники другого проекта OntoWordNet считают, что недостаточно провести формальную склейку ресурса типа WordNet и формальной онтологии, необходима значительная реструктуризация исходного лексического ресурса.
Третий путь – попытаться разработать единый ресурс, в котором были бы сбалансированы обе части: система понятий – и система лексических значений, что заключается в разумном разделении этих единиц в создаваемом ресурсе и аккуратном описании их взаимосвязей. Попытка такого подхода реализуется в онтологиях MikroKosmos и OntoSem».
3. Стоит также посмотреть статью Александра Нариньяни. Кентавр по имени ТЕОН: Тезаурус + Онтология
4. Среди зарубежных публикаций попались следующие:
- Metadata? Thesauri? Taxonomies? Topic Maps! (Lars Marius Garshol). В статье тезаурусы ставятся выше, чем таксономии, но ниже чем онтологии, сознательно ограничивая их трактовку стандартами ISO (по нашему — СИБИД 7.25-2001). В них тезаурусы наделены только отношениями синонимии (USE/UF), род-вид (BT/NT) и ассоциации (RT). Апогеем развития лексикограф. структур для информационного поиска представляются Тематические карты (Topic maps), на кот. также имеются стандарты (ISO/IEC 13250:2003) и средства описания.
- http://www.spicynodes.org/reference-semantic.html. А на этом ресурсе кратко объясняется, что тематические карты являются разновидностью семантических сетей. Здесь же есть соотв. программы
5. Дополнительно по терминологии можно воспользоваться ресурсом рабочей группы симпозиума «Онтологическое моделирование», которой пытается увязать другие смежные понятия.
6. И еще из ресурсов стоит посмотреть подборку ссылок одного из моих студентов, выполнившего диплом на тему «Информационные технологии семантической разметки веб-страниц».