Тезаурус vs. Онтология

Одной из первых проблем (после выбора и сужения тематики), с которой я столкнулся при подготовке лекции, стало традиционное размышление о названии. Камнем преткновения выступило понятие «когнитивного тезауруса«, для которого сходу не удалось найти адекватного перевода. При этом сначала встал вопрос о том, что такое когнитивный тезаурус, но чуть позже возникли сложности с переводом слова «тезаурус» в общем смысле.

За все время моего увлечения компьютерной лингвистикой я несколько раз пытался четко определить это понятие на основе имеющейся литературы, однако каждый раз я наталкивался на «мутное поле», которое только разрасталось с появлением новых публикаций, стандартов, технологий и т.д. Фактически, понятие «тезаурус» стало неким модным словечком (в полном смысле этого слова), т.е. постоянно изменяющимся и сильно зависящим от контекста (среды ученых, области применения и т.д.).

Пожалуй, самой первой, принятой мной трактовкой этого слова стало что-то вроде «универсальный словарь, имеющий много входов». Такое понимание сформировалось у меня под влиянием книги Ю.Н.Караулова «Лингвистическое конструирование», где представлена очень интересная типология словарей и принципы их построения. К сожалению, сейчас под рукой нет этой книги, но надо будет еще раз внимательно посмотреть соответствующие определения. Таким образом, для меня первым значением понятия тезауруса стала лингвистическая и очень абстрактная формулировка, которая позволяет под тезаурусом понимать почти любую лексикографическую конструкцию ))

Не вдаваясь в подробности захватывающего процесса развития семантики этого слова в моем сознании на протяжении ряда лет, хочу отметить только то, что многогранность тезауруса фиксировалась у меня только по необходимости, когда нужно было объяснить или сопоставить отблески «сокровищ» с “тенями и отражениями» других «жителей» лингвистического мира, области ИИ и провинции semantic Web.

С онтологиями же происходила обратная история. Появление понятия (я сознательно не использую слово термин) и его активное использование за рамками философии у меня началось уже после того, как были сформированы многие понятия в области инженерии знаний, искусственного интеллекта и соответствующих формальных моделей. В связи с этим в своих лекциях по интеллектуальным системам я говорю об онтологиях как о новой форме (аватаре) псевдофизических логик, направленных на формализованное отражение специфики предметной области. Вместе с тем на практике онтологию часто приравнивают к существующим и широко распространенным моделям представления знания (семантическим сетям, фреймам, продукциям, логике предикатов и др.). Таким образом, использование нового лэйбла «онтология» скорее дань моде и обусловлена как говорит Александр Нариньяни «склонностью области ИИ к постоянному заимствованию ярких этикеток». Возможно в будущем мы сможем говорить об онтологиях как о полноценных моделях бытия, его основах, принципах, структуре и закономерностях, но сегодня мы видим лишь небольшие и очень скромные проекции этого.

Сейчас, думая о том, как объяснить все это (и стоит ли) потомкам кельтов, я попытался обобщить и прокомментировать ряд найденных ссылок.

  1. Википедиа порой оказывается очень полезным ресурсом, но в этот раз почти по всем статьям выявилось сильное несоответствие статей на русском и английском. Но начать можно и с них, обязательно изучив связанные базовые понятия. Важно также не забыть улыбнуться фразе: «…Слово «Роже» в названии тезауруса не является объектом авторского права…».
  2. Рекомендую всем почитать учебное пособие В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич «Онтологии и тезаурусы», 2006 г.
    http://window.edu.ru/window_catalog/pdf2txt?p_id=18880 – здесь можно скачать PDF-версию
    http://www.intuit.ru/department/expert/ontoth/ — здесь можно дистанционно изучить соответствующий курс и даже получить диплом
    http://company.yandex.ru/academic/class2006/solovyev.xml — здесь можно посмотреть как авторы переложили курс/книгу в слайд-лекции

В книге тезаурусы рассматриваются как типы онтологий со ссылкой на классификацию, представленную в работах Lassila O, McGuiness D.

 Интересной особенностью данной классификации является то, что тезаурусы в схеме ниже по уровню формализованности, чем таксономии, которые в отличие от «груды сокровищ» всегда имеют стройную многоуровневую иерархическую организацию. Беглый поиск не позволил мне подтвердить первоисточник, но в дремучем лесу схем и картинок мне удалось по соответствующим ключевым словам найти похожую, но все же отличающуюся схему. В ней тезаурус стоит выше по своей интероперабельности, выразительности и судя по всему формализованности. 

Вместе с тем авторы отдельно выделяют класс «лингвистических онтологий», иллюстрируя его замечательной цитатой известного британского лингвиста Йорика Вилкса, что

«несмотря на то, что все авторы статей по онтологиям подчеркивают, что понятия являются кирпичиками любой онтологии, мы манипулируем понятиями посредством слов. Во всех онтологиях, которые известны, слова используются, чтобы представлять понятия. Следовательно, то множество явлений в мире, которые не вербализованы, не могут быть смоделированы. Мы можем описать это явление как Онтологическая гипотеза Сепира-Уорфа, то есть то, что не описывается словами, не может быть отражено в онтологии…».

Далее авторами отмечается, что

«главной характеристикой лингвистических онтологий является то, что они связаны со значениями (“are bound to the semantics”) языковых выражений (слов, именных групп и т.п.). Лингвистические онтологии охватывают большинство слов языка, и одновременно имеют онтологическую структуру, проявляющуюся в отношениях между понятиями. Лингвистические онтологии могут поэтому рассматриваться как особый вид лексической базы данных и особый тип онтологии. Лингвистические онтологии отличаются от формальных онтологии по степени формализации. Поэтому предполагается, что разработчики такого рода ресурсов разрабатывают иерархию лексических значений естественного языка, а для более строгого описания знаний о мире необходимо сопоставить такие ресурсы с какими-либо формальными онтологиями.

Так, содержанием одного из проектов является установление отношений между WordNet и EuroWordNet, c одной стороны, и формальной онтологией SUMO — Standartized Upper Merged Ontology, с другой стороны. Проект состоит в том, чтобы установить соответствие между синсетами WordNet и понятиями онтологии, при котором каждый синсет WordNet либо напрямую сопоставляется с понятием онтологии, либо является гипонимом для некоторого понятия, либо примером понятия онтологии.

Участники другого проекта OntoWordNet считают, что недостаточно провести формальную склейку ресурса типа WordNet и формальной онтологии, необходима значительная реструктуризация исходного лексического ресурса.

Третий путь – попытаться разработать единый ресурс, в котором были бы сбалансированы обе части: система понятий – и система лексических значений, что заключается в разумном разделении этих единиц в создаваемом ресурсе и аккуратном описании их взаимосвязей. Попытка такого подхода реализуется в онтологиях MikroKosmos и OntoSem».

3. Стоит также посмотреть статью Александра Нариньяни. Кентавр по имени ТЕОН: Тезаурус + Онтология 

4. Среди зарубежных публикаций попались следующие:

  • Metadata? Thesauri? Taxonomies? Topic Maps! (Lars Marius Garshol). В статье тезаурусы ставятся выше, чем таксономии, но ниже чем онтологии, сознательно ограничивая их трактовку стандартами ISO (по нашему — СИБИД 7.25-2001). В них тезаурусы наделены только отношениями синонимии (USE/UF), род-вид (BT/NT) и ассоциации (RT). Апогеем развития лексикограф. структур для информационного поиска представляются Тематические карты (Topic maps), на кот. также имеются стандарты (ISO/IEC 13250:2003) и средства описания.
  • http://www.spicynodes.org/reference-semantic.html. А на этом ресурсе кратко объясняется, что тематические карты являются разновидностью семантических сетей. Здесь же есть соотв. программы

5. Дополнительно по терминологии можно воспользоваться ресурсом рабочей группы симпозиума «Онтологическое моделирование», которой пытается увязать другие смежные понятия.

6. И еще из ресурсов стоит посмотреть подборку ссылок одного из моих студентов, выполнившего диплом на тему «Информационные технологии семантической разметки веб-страниц».

Запись опубликована в рубрике Тезаурусы и онтологии с метками , , . Добавьте в закладки постоянную ссылку.
  • Александр Панченко

    Очень интересный пост!

    1) Создатели общественно-политического тезауруса русского языка (http://uisrussia.msu.ru/docs/ips/n/techno/index.htm) дают для него следующее определение:

    Тезаурус — это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса — помощь при информационном поиске: на основе связей тезауруса происходит расширение запроса, навигация по связям тезауруса помогает четче сформулировать сам запрос.

    2) “Вместе с тем на практике онтологию часто приравнивают к существующим и широко распространенным моделям представления знания (семантическим сетям, фреймам, продукциям, логике предикатов и др.).  “

    Мне кажется что основной довод за эквивалентность онтологий и других моделей представления знаний (фреймов, семантическим сетей, концептуальных графов и некоторых других моделей) заключается в том что все эти модели можно представить в терминах логики предикатов первого порядка (first-order logic). Соответственно они все обладают одним уровнем выразительности, как символьный язык представления знаний. К примеру? Люгер в своей книге „Искуственный интеллект: методы решения сложных проблем“ даже приводит алгоритм конвертирования концептуального графа на язык предикатов.

    3) „Рекомендую всем почитать учебное пособие В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич «Онтологии и тезаурусы», 2006 г. „
    Да, отличное пособие. Оно есть с 2008 года как курс на Интуите http://www.intuit.ru/department/expert/ontoth/

    4) „Metadata? Thesauri? Taxonomies? Topic Maps! (Lars Marius Garshol)
    В статье тезаурусы ставятся выше, чем таксономии, но ниже чем онтологии,  „

    Независимо от вас вчера тоже наткнулся именно на эту статью. В целом согласен с упорядочиванием таксономии << тезаурусы << онтологии. Действительно, иерархия в тезаурусе это таксономия, однако тезаурус может содержать и другие виды отношений (ассоциативные, отношения эквивалентности). Онтология может определять любые типы отношений и при этом обладает „дополнительным функционалом“ – функции, аксиомы, дескриптивная логика, и т.п. Таким образом, получается что каждая таксономия или тезаурус могут быть представлены как онтология, а обратное неверно.

    • 1. Здесь выбран подход, используемый в стандартах на инф.-поиск. тезаурусы. Ты ведь тоже ориентируешься именно на это понимание в своей работе. Однако это узкое понимание, а другого, более широкого понятия, в лингвистике нет (или, точнее, широко не употребляется).
      2. Перечисленные модели далеко не всегда можно представить с помощью логики предикатов, особенно первого порядка.
      3. Я эту ссылку тоже привел )
      4. см. п.1. А таксономия это уж совсем вырожденная онтология (т.к. в ней только один тип отношений). Я думаю, что в широком понимании разница между тезаурусом и онтологией проходит там же, где и линия раздела между компьютерной лингвистикой (ЕЯ-процессором) и ИИ (полнофункциональным ител. агентом).
      5. В целом считаю и тез., и онт. понятиями с широкой и размытой семантикой, которая приобретают конкретику только при дополнительных допущениях (например, при использовании стандартов).

  • Александр Панченко

    1. Да, я привел цитату чтобы дать более конкретное определение одного из видов тезаурусов. Конечно, это определение годится только для ресурсов использующихся для задач автоматической обработки текстов и информационного поиска.

    2. Какие точно на ваш взгляд можно, а какие нельзя? К примеру, какой элемент классической семантической сети нельзя представить на языке предикатов первого порядка?

    3. Да, извиняюсь. Пропустил эту ссылку.

    4. Можно рассматривать таксономию как вырожденную онтологию. C другой стороны Cimiano в книге «Ontology population and learning from text» (http://books.google.com/books?hl=en&lr=&id=CRbCXdGZgC4C&oi=fnd&pg=PR14&dq=ontology+learning+and+population&ots=PauA6qTFTw&sig=rkbDEnflfiROqI38thsVB-0Gd3I#v=onepage&q&f=false ) называет таксономией иерархию классов в онтологии. Таким образом, таксономия с его точки зрения является основой онтологии. Иерархия типов в концептуальных графах тоже может быть интерпретирована как таксономия.

    «Я думаю, что в широком понимании разница между тезаурусом и онтологией проходит там же, где и линия раздела между компьютерной лингвистикой (ЕЯ-процессором) и ИИ (полнофункциональным ител. агентом).»
    Да, думаю что это суждение наиболее близко к истине. Однако ситуацию усложняет существование т.н. лексических онтологий таких как OntoWordNet и http://www.w3.org/TR/wordnet-rdf/.

    На мой взгляд важно разделять языки представления онтологий, такие как OWL и RDF, и те знания (данные) которые представлены с помощью этих языков. Для меня онтология это формальная символьная модель предстваления знаний. Ее можно использовать как для описания отношений между естественно-языковыми единицами, так и для описания любой другой области знаний. Тезаурусное описание, это тоже модель представления знаний, только более простая. Отношения в тезаурусе по определению лексические и семантические, т.е. привязанные к естественному языку. Именно поэтому тезаурус используется только для представления лексического аспекта знаний о предметной области, в отличие от онтологии, которая может использовать любой тип отношений между классами.

    „В целом считаю и тез., и онт. понятиями с широкой и размытой семантикой, которая приобретают конкретику только при дополнительных допущениях (например, при использовании стандартов). „

    Согласен. К примеру, если мы используем Semantic Web стандарт SKOS для описания тезауруса или таксономии (http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/ ), то сразу становится видно в чем эта модель представления знаний отличается от полнофункционально онтологии OWL Full (http://www.w3.org/TR/owl-ref/ ).

    Вот так разработчики SKOS объясняют разницу между ним и OWL (примерно соотносится разнице между тезаурусом и формальной онтологией):

    „ SKOS, RDF and OWL
    The elements of the SKOS data model are classes and properties, and the structure and integrity of the data model is defined by the logical characteristics of, and interdependencies between, those classes and properties. This is perhaps one of the most powerful and yet potentially confusing aspects of SKOS, because SKOS can, in more advanced applications, also be used side-by-side with OWL to express and exchange knowledge about a domain. However, SKOS is not a formal knowledge representation language.
    To understand this distinction, consider that the «knowledge» made explicit in a formal ontology is expressed as sets of axioms and facts. A thesaurus or classification scheme is of a completely different nature, and does not assert any axioms or facts. Rather, a thesaurus or classification scheme identifies and describes, through natural language and other informal means, a set of distinct ideas or meanings, which are sometimes conveniently referred to as «concepts». These «concepts» may also be arranged and organized into various structures, most commonly hierarchies and association networks. These structures, however, do not have any formal semantics, and cannot be reliably interpreted as either formal axioms or facts about the world. Indeed they were never intended to be so, for they serve only to provide a convenient and intuitive map of some subject domain, which can then be used as an aid to organizing and finding objects, such as documents, which are relevant to that domain.
    To make the «knowledge» embedded in a thesaurus or classification scheme explicit in any formal sense requires that the thesaurus or classification scheme be re-engineered as a formal ontology. In other words, some person has to do the work of transforming the structure and intellectual content of a thesaurus or classification scheme into a set of formal axioms and facts. This work of transformation is both intellectually demanding and time consuming, and therefore costly. Much can be gained from using thesauri, etc., as-is, as informal, convenient structures for navigation within a subject domain. Using them as-is does not require any re-engineering and is therefore much less costly. In addition, some KOS are, by design, not intended to represent a logical view of their domain. Converting such KOS to a formal logic-based representation may, in practice, involve changes which result in a representation that no longer meets the originally intended purpose.
    OWL does, however, provide a powerful data modeling language. We can, therefore, use OWL to construct a data model for representing thesauri or classification schemes as-is. This is exactly what SKOS does. Taking this approach, the «concepts» of a thesaurus or classification scheme are modeled as individuals in the SKOS data model, and the informal descriptions about and links between those «concepts» as given by the thesaurus or classification scheme are modeled as facts about those individuals, never as class or property axioms. Note that these are facts about the thesaurus or classification scheme itself, such as «concept X has preferred label ‘Y’ and is part of thesaurus Z»; these are not facts about the way the world is arranged within a particular subject domain, as might be expressed in a formal ontology.

    Источник — http://www.w3.org/TR/2009/REC-skos-reference-20090818/

    • 2. То, что две связанные вершины сем. сети, а также нексолько связанных вершин сем. гиперсети можно преобразовать в n-местный предикат, я даже рассказываю на лекциях 😉 Но если мы возьмем фреймовую или сценарную сеть, то это уже не так просто. А если мы начнем использовать нечеткие или модальные отношения (например, нечеткие когнитивные карты), то здесь логика первого порядка просядет. А потом важно понимать, что все можно выразить и спомощью логики высказываний, однако наглядность и трудоемкость будет существенно выше )
      Ps: Пжлста, авторизуйся перед добавлением комментариев, а то приходится его каждый раз подтверждать.

  • Александр Панченко

    Я авторизирован. Мне кажется что это вопрос настройки системы блогов…Когда я получаю комментарии я тоже всегда подтвержаю, насколько я помню.

    Про сценарную модель я нечеткие отношения согласен, однако я скорее имел ввиду модели представления знаний основанные на графах. Фреймовая модель думаю может-таки быть описана в языке предикатов. Единственное что может быть затруднительным это ограничения на значения, наверное. Я полностью согласен что элегантность представления на языке предикатов низкая, но изначально я говорил о конвертировании в язык предикатов с целью доказать эквивалентность выразительности различных моделей представления знаний.

  • Нашел статью Толмен Э. КОГНИТИВНЫЕ КАРТЫ У КРЫС И У ЧЕЛОВЕКА // Хрестоматия по истории психологии. Под ред. Гальперина П. Я., Ждан А. Н. М.: Изд-во МГУ, 1980. С. 63-69.

    Основная часть этой статьи посвящена описанию экспериментов с крысами. В заключение я попытаюсь также в нескольких словах определить значение данных, полученных на крысах, для понимания поведения человека.

  • Александр Панченко

    Вот еще одна интесная статья по теме…
    http://bibliologia.info/archivos/Thesauros%20taxonomias.pdf

  • предлагаю ознакомиться.