Text only | Skip links
Skip links||IT Services, University of Oxford

1. 1986 год. Это было так давно...

  • В США появляется Brain – первый компьютерный вирус
  • Начинается строительство туннеля под Ла-Маншем
  • Советский союз запускает станцию «Мир»
  • Чернобыльская катастрофа
  • Убит Улоф Пальме
  • Музыкальные записи года: Raising Hell (Run DMC)... Graceland (Paul Simon)... Группа крови (Виктор Цой)

2. ... но и тогда мы использовали компьютеры

  • Корпусная лингвистика
  • Базы данных на компакт-дисках
  • Уже созданные крупномасштабные лексические ресурсы (TLF, TLG, LASLA...)
  • Цифровая лексикография (Оксфордский словарь английского языка; Обратный словарь русского языка А.А.Зализняка...)
  • Системы управления документов (TeX, Scribe, tRoff..)
    • часть из них — коммерческие (и дорогие), часть — исследовательские
  • Архивы текстов
  • Теория гипертекста

Но еще было сравнительно мало персональных компьютеров и не было Всемирной паутины ...

3. Как родилась Инициатива кодирования текстов (TEI)

  • Весна 1987 г.: проходит Европейский семинар по стандартизации исторических данных (J.P. Genet, M. Thaller)
  • Осень 1987 г.: Фонд NEH финансирует международную конференцию для изучения возможности составления «Руководства по кодированию текстов»
Vassar College, Poughkeepsie
Figure 1. Vassar College, Poughkeepsie

4. Насущные вопросы

  • TEI — долгожитель!
  • Она старше Интернета, DVD, мобильных телефонов, кабельного ТВ... и даже Microsoft Word
  • В компьютерном мире мало кто доживает до 5 лет, не говоря уже о 20
  • В чем смысл существования TEI?
  • Почему она все еще жива и как ей удалось так долго продержаться?

5. В чем смысл существования TEI сегодня?

  • С помощью XML каждый может создать свою систему разметки и при этом обмениваться данными с другими!
  • В ‘Семантической паутине’ (Semantic Web) самые разные системы XML понимают данные друг друга!
Но если у нас будут
  • исторические данные, размеченные с помощью Языка исторической разметки,
  • лингвистические данные, размеченные с помощью Языка лингвистической разметки,
  • метаданные, размеченные с помощью Языка разметки метаданных,
то каким образом мы объединим ресурсы и как мы будем задавать друг другу интересные вопросы?

А не наступаем ли мы на те же грабли?

6. Смысл 1

TEI предлагает:
  • независимую от языка структуру (framework) создания конкретных языков разметки;
  • простой консенсусный способ организации и структурирования текстовых (и других) ресурсов, ...
  • ... который можно обогащать и персонализировать ‘на свой вкус’ и/или в соответствии со специальными задачами;
  • богатую библиотеку готовых специализированных компонентов;
  • интегрированный комплекс стандартных стилевых таблиц для создания схем и документации на разных языках и в разных форматах;
  • широкое и активное сообщество пользователей, организованное по принципу open source.

7. Смысл 2

Почему это нужно?
  • Потому что существует потребность в обмене ресурсами
    • между людьми
    • (и все больше и больше) между машинами.
  • Потому что существует потребность в объединении ресурсов
    • различных медийных типов (текст, изображение, звук...),
    • созданных в различных технических контекстах.
  • Потому что существует потребность в сохранении ресурсов...
    • Глубокая заморозка нам не подходит!
    • Сохранять нужно и метаданные, и данные.

8. ‘Добродетельный круг’ кодировки

9. Сфера ‘разумной’ разметки

Уже первоначальная разметка TEI включала
  • базовые структурные и функциональные компоненты;
  • дипломатическую транскрипцию, изображения, аннотации;
  • ссылки, соответствия, выравнивание;
  • объекты, содержащие особые данные: дата, время, место, лицо, событие и т.д. (‘распознавание элементов предметной области’);
  • метатекстовую аннотацию (исправления, удаления и т.п.);
  • все уровни лингвистического анализа;
  • контекстные метаданные всех видов
  • и т.д. и т.п.

Можно ли энциклопедически ограничить разнообразие всех возможных видов разметки?

10. Обоснование попыток определить единую структуру

  • Повторное использование и «перенацеливание» ресурсов
  • Модульный метод разработки программ
  • Снижение расходов на обучение
  • ‘Часто задаваемые вопросы’ — единые технические решения для разных сфер применения

Идея, которая легла в основу TEI, предполагает поддержку различных точек зрения на один и тот же ресурс

11. «Старая школа» TEI

  • Движимый исследовательстким любопытством традиционный (в широком смысле) исследовательский проект со скромным финансированием
  • Кодификация ‘лучшей практики’, но без формального метода поддержки
  • Отсутствие единой практики лицензирования и программирования
  • Нечто невероятно сложное (для всех, за исключением ‘служителей культа’) и, в то же время, нечто слишком примитивное для настоящей научной работы
  • Отсутствие специальных инструментов, позволяющих работать с текстом, размеченным в TEI
  • Неумение ‘продать’ преимущества богатой разметки

12. TEI. Новая версия

  • Оформленная лицензия Open source, с видимым развитием ресурсов на Sourceforge
  • Обновленная архитектура, призванная облегчить расширение и интеграцию с другими системами
  • Самодокументирование. Каждый выпуск проходит полную валидацию и распростаняется согласно отработанным методам
  • Открытый доступ к средствам обработки и Руководству
  • Активное сообщество разработчиков, сайт Wiki и т.д. Тестовые файлы, образцы, регулярные обновления...
  • Новая структура управления, новые инструменты, новые модули...

13. Три ключевых момента TEI P5

  1. Добропорядочность ‘цифрового гражданина’
    • Поддержка различных языков схем и пространств имен
    • Опора на XML и, следовательно, на Unicode
    • Валидация атрибутов и типов данных
    • Использование указателей (pointer) и путей (path) W3C
  2. Гибкость
    • ODD: единый язык спецификации для программистов, пользователей и преподавателей TEI, включающий схему и документацию
    • Возможность проверки соответствия
  3. Решение старых проблем и появление новых тем

14. Единый язык спецификации

  • Набор документов TEI описывается с помощью ODD, который, в свою очередь, является документом TEI и сочетает в себе:
    • ссылки на существующие декларации
    • формальные декларации элементов и атрибутов
    • документацию и замечания по использованию
  • В итоге:
    • концептуальная модель, уровень абстракции которой поднимается от конкретных элементов к общим классам
    • модульная архитектура для комбинирования наборов определений
  • Спецификации могут выстраиваться в цепочку; изменения пишутся на языке ODD с получением документа ODD на входе и выходе
  • Roma — сегодня один из интерфейсов этой процедуры, будут и другие

15. Пример

Файл TEI ODD — это корректный документ TEI, включающий любое количество ‘прозы’ и элемент <schemaSpec>, определяющий документируемую им схему

<text>
 <body>
  <div>
   <head>Наша проектная документация</head>
   <p>В данном проекте используются, с незначительными изменениями, базовые структуры TEI. Изменения состоят в
       удалении ненужных нам элементов.</p>
   <schemaSpec ident="TEI-minimalstart="TEI">
    <moduleRef key="tei"/>
    <moduleRef key="header"/>
    <moduleRef key="core"/>
    <moduleRef key="textstructure"/>
<!-- Нам не нужны элементы, предназначенные для драмы: -->
    <elementSpec ident="spmode="deletemodule="core"/>
    <elementSpec ident="speakermode="deletemodule="core"/>
   </schemaSpec>
  </div>
 </body>
</text>

16. Поддержка различных языков схем

  • Схемы TEI генерируются в форматах
    • XML DTD
    • ISO RELAX NG
    • W3C Schema Language
  • Модели содержания определяются использованием синтаксиса RELAX NG
  • Типы данных определяются в терминах типов данных W3C
  • Некоторые компоненты (например, альтернации, пространства имен) не могут быть выражены на языке DTD
  • Дополнительные условия могут быть заданы с помощью Schematron

17. Две причины недостаточности стандартов

  • ‘Незрелая’ теория
  • Синдром ‘изобретено не у нас’: сообщество пользователей слишком разобщено

18. Использование ‘полуфабрикатов’ идей

С помощью TEI ODD, вы можете:
  • ограничить список допустимых значений;
  • ввести жесткие правила Schematron, например, в отношении взаимозависимости;
  • создать новые элементы в вашем собственном пространстве имен;
  • удалить (необязательные) дочерние элементы (child elements).

19. Новые элементы

Схема — это грамматика. Каким образом можно ввести новые компоненты в уже существующий синтаксис?

  • Все модели содержания выражаются косвенно, путем ссылок на классы элементов, а не на сами элементы
  • Таким образом, для того, чтобы добавить новый элемент, достаточно указать его принадлежность к определенному классу (классам)

Схема TEI также обогащена семантически. Как объяснить, что означает новый элемент?

  • Принадлежность к классу предполагает определенную семантику
  • ODD включает детальную документацию

20. Борьба с синдромом ИНН

  • TEI P5 предусматривает широкие возможности интернационализации путем перевода:
    • объектов схемы,
    • документации схемы.
  • См. ROMA на http://www.tei-c.org/Roma/
  • TEI совместима с другими пространствами имен
    • При желании можно использовать SVG для графики, MathML для математических формул, разметку таблиц слов
    • (Но! Это не решает Других Проблем Перекрещивания...)
  • ODD также содержит элемент <equiv> для сопоставления с внешними онтологиями

21. Пример

Ввод SVG в разметку TEI:
<figure>
<svg xmlns="http://www.w3.org/2000/svg" width="6cm" height="5cm" viewBox="6 3 6 5">
<ellipse style="fill: rgb(255, 255, 255);" cx="9.75" cy="6.35" rx="2.75" ry="2.35"/>
</svg>
</figure>
Заданный пользователем атрибут:
<div   xmlns:my="http://www.example.org/ns/nonTEI">
 <p n="12my:topic="rabbits">Flopsy, Mopsy, Cottontail, and Peter...</p>
</div>

Процессор Джеймса Кларка onvdl осуществляет валидацию схем согласно множеству пространств имен

22. Проблемы согласованности (конформности)

Документ соответствует TEI (TEI conformant), если и только если он:
  • является правильно структурированным XML-документом;
  • может пройти валидацию по отношению к схеме TEI, т.е. схеме, описанной в Руководстве TEI;
  • соответствует абстрактной модели TEI;
  • корректно использует пространство имен TEI (и другие пространства имен, если это необходимо);
  • документирован с помощью соответствующего TEI файла ODD со ссылкой на Руководство TEI.

Либо, если он путем использования определенных TEI процедур может быть автоматически преобразован в такой документ (в этом случае он согласуем с TEI или TEI-conformable).

Стандартизация не значит ‘Делай, как я’, скорее: ‘Доступно объясни мне, что ты делаешь.’

23. Эволюция работает!

  1. Вносите изменения в ваше собственное пространство имен
  2. Документируйте их с помощью ODD
  3. Шлите предложения исправлений или запросы на новые параметры Совету TEI
  4. TEI P5 работает в режиме 6-месячного цикла выпуска обновлений...

Более подробная информация на сайте http://www.tei-c.org

Сайт для загрузок http://tei.sf.net



Lou Burnard. Date:
Copyright University of Oxford