Институт проблем рынка РАН, Москва
Тезисы доклада, представленного на Второй всероссийской конференции
"Стандарты в проектах современных информационных систем",
Москва, 27-28 марта, 2002 г.
Работа частично поддержана грантами РФФИ 01-07-90444 и РГНФ 00-02-12002.
Аннотация
Cостав стандартов платформы XML, их назначение и взаимосвязи, принципы расширения функциональности платформы, роль метаданных в этой среде, некоторые важные сферы применения и перспективы развития были детально рассмотрены в докладе [1].
За время, прошедшее после первой конференции “Стандарты в проектах современных информационных систем” (2001), были одобрены стандарты ряда новых базовых компонентов платформы – XML Schema, XLink, XML Infoset, XSL, XML Signature и ряд других. Активизировались работы над языком запросов XML-данных, названного XQuery. Осенью 2001 г. учреждена и начала функционировать рабочая группа по онтологиям, задача которой – создание языка описания онтологий – важного компонента технологий семантического Веб.
В этом докладе обсуждаются некоторые важные, имеющие фундаментальный характер, направления деятельности консорциума W3C по развитию стандартов плат-формы XML, новые ее результаты и открывающиеся в связи с ними технологические возможности, а также динамично развивающиеся в последнее время сферы применения стандартов XML – базы данных XML и электронный бизнес. Более детально некоторые рассматриваемые здесь вопросы рассматриваются в [2,3].
Язык XML унаследовал от традиционных HTML-технологий в простейшем случае его применения возможности представления слабоструктурированных данных. Напомним, что слабоструктурированными называют данные, не имеющие регулярной структуры, свойственной некоторым наборам их экземпляров. Обычно здесь отсутствует какая-либо определенная система типов. Если для таких данных определена отчужденная схема, то в отличие от систем баз данных она имеет описывающий, а не обязательный (предписывающий) характер.
XML-документы являются самоописываемыми. Средствами разметки описываются некоторые их структурные свойства. Однако для выполнения связанных с ними различного рода операций управления данными необходимо извлекать сведения об этих свойствах из содержания документов. Этой проблеме посвящено большое количество публикаций (см., например [4]).
Как известно, некоторые средства структурирования XML-данных обеспечивают спецификации DTD. Однако довольно бедная система типов значений элементов и атрибутов элементов XML-документов, предусмотренная в этом подмножестве языка XML, не дает возможности полноценно описывать структуру таких данных.
Принятый консорциумом W3C в мае 2001 г. стандарт XML Schema решает эту задачу и позволяет формировать коллекции структурированных XML-данных. Благодаря этому открываются новые возможности в области баз данных XML, упрощается решение некоторых проблем интеграции данных и др.
Таким образом, стандарты платформы XML обеспечивают теперь представление не только слабоструктурированных, но и структурированных данных.
Техника моделирования данных является таким же необходимым инструментом управления XML-данными, как и в традиционных базах данных. Заметим прежде всего, что авторы стандартов XML употребляют “старомодную” трактовку понятия модели данных как структуры XML-документа, а не как инструмента моделирования этих ресурсов [5]. Тем самым оставляется в стороне вопрос о стандартизации операционных возможностей средств управления XML-данными.
Комплекс стандартов платформы XML обеспечивает поддержку многоуровневого представления XML-данных: “физического” представления XML-документа (кодирование, хранимые сущности, их URI и т.п.); представления средствами XML и Namespace (к этому уровню относятся также средства стандартов XLink, XPointer, XQuery, XSL, XSLT и др.); представления в терминах стандартизованного теперь языка XML Schema; RDF-спецификации. Однако, к сожалению, аспекты моделирования данных для некоторых из этих уровней полноценно не проработаны. Вопрос о моделировании данных решается самостоятельно для каждого из связанных с ними стандартов.
Функционально полные варианты модели данных представляют комбинации XML+XQuery и реализованный в СУБД XML вариант XML+XSLT.
Наряду с моделированием XML-данных средствами стандартов этой платформы существуют и другие подходы – функционально полная объектная модель, определяемая стандартом DOM, моделирование средствами стандарта XPath, который используется, в частности, в качестве языка запросов в некоторых СУБД XML.
Создание стандартов XML стимулировало процессы конвергенции Web-технологий и технологий баз данных. С одной стороны, сформировался новый класс систем баз данных – базы данных XML - и рождается индустрия программного обеспечения для таких систем. Кроме того, XML-данные позволяет поддерживать в настоящее время большинство распространенных серверов баз данных. С другой стороны, XML-технологии в процессе развития заимствуют важные концепции технологий баз данных (модель данных, схема данных, язык запросов, многоуровневое представление данных и др.).
Разработка стандарта языка запросов XQuery открывает возможности для интеграции XML-данных и данных, содержащихся в реляционных базах данных. Она позволит вместе с тем решить важную проблему явного представления огромных информационных ресурсов “скрытого” Веб – баз данных SQL, к которым в настоящее время обеспечивается доступ в среде Веб посредством интерфейса HTML-форм. Инструментарий для интеграции ресурсов указанного рода разрабатывается и в области техноло-гий баз данных, где ведутся работы над новым компонентом стандарта языка SQL, названным SQL/XML [6]. Нужно заметить, что в рассматриваемой области активно проводятся исследования во многих научных центрах различных стран.
Созревший еще в середине 90-х годов замысел создателей Веб, направленный на радикальные преобразования этой весьма значимой теперь для жизнедеятельности общества системы и превращение ее в систему семантического уровня, начал активно реализовываться в последние годы. Одним из наиболее важных звеньев работ по семантическому Веб является создание языка описания онтологий [7]. В конце 2001 г. для этой цели в составе W3C была учреждена специальная рабочая группа – Web Ontology Working Group. Поскольку работа начинается не с чистого листа, а основана на уже полученных к этому времени разными коллективами результатах (прежде всего [8]), можно ожидать, что в ближайшее время стандарт такого языка будет принят.
Другая важная составная часть работы по семантическому Web – развитие средств представления метаданных информационных ресурсов XML. Помимо стандартизации языка XML Schema к этому направлению относятся работы по дальнейшему развитию стандарта RDF. Обзор проводимых в этом направлении разработок содержится в [9].
В последнее время активизировались попытки расширения сфер применения стандартов XML. К их числу относятся прежде всего разработки баз данных XML, где уже сформировались и реализуются на практике некоторые подходы (специализированные, адаптированные и гибридные системы). Координирующую роль в этой деятельности играет консорциум XML:DB [10]. Проект стандарта XQuery обеспечил новый вариант пользовательского интерфейса в СУБД XML наряду с уже используемыми для этих целей стандартами DOM, XSLT, XPath и др.
Активную деятельность по продвижению стандартов XML в практику ведет консорциум OASIS. В последнее время одним из центральных ее направлений стал электронный бизнес, где на основе XML уже создан ряд спецификаций для этой области приложений. Весьма значимыми в этой связи являются усилия консорциума по интеграции этих усилий и созданию языка Universal Business Language (UBL) [11, 12]. В нем с учетом уже существующих разработок будет определена унифицированная библиотека форматов бизнес-документов для различных видов электронного бизнеса, компонентов таких документов, пользовательских профилей, позволяющих задать некоторые их параметры и т.д.
Важное значение для развития приложений стандартов XML имеет учрежденное недавно сотрудничество между консорциумом OASIS и SC34 JTK1, направленное на создание официального стандарта основанного на XML языка описания и обработки документов для электронного бизнеса.
Рассмотренные результаты деятельности консорциума W3C по развитию стандартов XML не только открывают новые возможности для дальнейшего обогащения функциональности основанных на них технологий, но и значительно усиливают прикладной потенциал платформы. Об этом свидетельствуют все более широкое использование стандартов XML в разработках электронных библиотек и информационных систем иного типа, активизация деятельности по созданию новых стандартов и технологий электронного бизнеса и многие другие проекты.
1. Когаловский М.Р. Функциональные возможности и направления использования стандартов платформы XML. Сб. трудов Всероссийской практической конференции “Стандарты в проектах современных информационных систем”, Москва, 2001. – М.: Открытые системы, 2001. – С. 127-133.
2. Когаловский М.Р. Стандарты платформы XML и базы данных. Обзорная лекция. Сб. трудов Третьей Всероссийской конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”, Петрозаводск, сентябрь 2001 г. – Петрозаводск: Карельский научный центр РАН, 2001. – С. 108-117.
3. Когаловский М.Р. Энциклопедия технологий баз данных. – М.: Финансы и статистика, 2002. – 800 с.
4. Goldman R., Widom J. DataGuide: Enabling Query Formulation and Optimization in Semistructured Databases. In Proc. of the VLDB Conf., Athens, Greece, 1997
5. Когаловский М.Р. Абстракции и модели в системах баз данных. СУБД, 4-5/1998, с. 73-81.
6. ISO/IEC 9075-14:200x(E). Information technology – Database language – SQL – Part 14: XML-Related Specification (SQL/XML). 2001-06-18. Working Draft. http://www.sqlx.org/
7. W3C Semantic Web Activities. http://www.w3.org/2001/sw/
8. DAML+OIL (March 2001) Reference Description. W3C Note 18 December 2001. http://www.w3.org/TR/2001/NOTE-daml+oil-reference-20011218.
9. Бездушный А.Н., Вежневец А.А., Серебряков В.А., Шкотин А.В. Мета-данные: определение и использование. Сб. трудов Московской международной конференции ”Электронная конвергенция: новые технологии в музеях, галереях, библиотеках и архивах (EVA 2001), Москва, декабрь 2001”.
10. XML:DB Initiative for XML Databases. http://www.xmldb.org/
11. UBL: The Next Step for Global E-Commerce. December 26, 2001. http://www.oasis-open.org/
12. UBL TC Charter. OASIS, 28 August 2001. http://www.oasis-open.org/