Text only | Skip links
Skip links||IT Services, University of Oxford

1. Инфраструктура TEI

2. Что такое модуль?

3. Модули

4. Воображаемый проект Punch (ВПР)

5. Сначала нам надо решить, какие аспекты текста мы будем размечать:

6. Теги TEI для разметки макроструктуры текста

7. Почему разделы, а не страницы?

8. Разделы могут состоять из разделов...

9. Плавающий текст

10. Что входит в состав раздела?

11. Пример

12. Пример

13. Глобальные атрибуты

14. Пример

15. Макроструктура 1

16. Макроструктура 2

17. Макроструктура 3

18. Метаданные какого рода?

19. Паспорт TEI-документа (TEI header)

20. Структура паспорта TEI-документа

21. Образец паспорта TEI-документа для ВПР

22. Под знаком «параграф»...

23. Выделение (Highlighting)

24. Несколько примеров выделений

25. Кавычки

26. Кавычки 2

27. Интервенция публикатора

28. Личные имена, географические названия, наименования...

29. Имена и названия: примеры

30. Даты

31. Перекрестные ссылки

32. Библиографическая ссылка

33. Пример <bibl>

34. Примечания

35. Примечания, связанные между собой

1. Инфраструктура TEI

  • Схема разметки TEI включает определенное число модулей
  • Модули содержат декларации элементов XML и их атрибутов
  • Декларация элемента соотносит его с определенным(-ми) классом(-ами) моделей
  • Декларация путем ссылок на соответствующие классы также определяет возможное содержание элемента и указывает атрибуты
  • Преимущество подобной описательной структуры в ее силе и гибкости
  • Структура позволяет путем указания на определенный класс включить в схему или исключить из нее новый элемент

2. Что такое модуль?

  • Удобный способ группировки некоторого числа деклараций элементов
  • Декларации одного модуля обычно имеют общую тему или одну область приложения
  • Отдельная глава «Руководства TEI», как правило, посвящается описанию и определению элементов одного модуля
  • Схема TEI создается путем выбора модулей с последующим добавлением необходимых (исключением нефункциональных) элементов

3. Модули

Названия модулей Раздел
analysis (анализ) Элементарные механизмы анализа
certainty (степень достоверности) Степень достоверности и ответственность
core (осевой модуль) Элементы, присутствующие во всех TEI-документах
corpus (корпус) Лингвистический корпус
dictionaries (словари) Словари
drama (драма) Драматические тексты
figures (изображения) Таблицы, формулы и графика
gaiji Репрезентация нестандартных букв и глифов
header (паспорт) Паспорт TEI-документа
iso-fs Структуры признаков
linking (выравнивание) Выравнивание, сегментация, ориентация
msdescription Описание рукописи
namesdates Даты, личные имена, георгафические названия
nets Диаграммы, сетевые системы, деревья
spoken Транскрибция речи
tagdocs Элементы документации
tei Инфраструктура TEI
textcrit Критический аппарат
textstructure Структура текста по умолчанию
transcr Репрезентация источника
verse Поэзия

4. Воображаемый проект Punch (ВПР)

  • Punch – известный английский юмористический журнал, выходивший в 1841–1992 годах (http://www.punch.co.uk/historyofpunch.html).
  • Цель проекта – опубликовать полностью размеченные тексты журнала и постраничные цифровые снимки изданий. Аудитория проекта:
    • специалисты в области истории общества
    • сотрудики библиотек
    • лингвисты
  • В чем может заключаться помощь TEI? И какие разделы TEI мы можем использовать в этой работе?

5. Сначала нам надо решить, какие аспекты текста мы будем размечать:

  • выходные данные и номера страниц, чтобы можно было на них ссылаться
  • «куски» или разделы текста, которые содержат иллюстрации, стихи, прозу, пьесы, или комбинацию всех этих жанров
  • внутри «куска» тектса мы можем идентифицировать формальные единицы, например
    • иллюстрации, подписи к иллистрациям
    • строфы, стихи
    • абзацы
    • реплики и ремарки
  • и так далее...

6. Теги TEI для разметки макроструктуры текста

Мы будем рассматривать каждый выпуск как отдельный <text> элемент, а каждый идентифицируемый раздел выпуска – как элемент <div> (раздел) определенного типа (скетч, стихотворение, проза и т.д.)

Например, страница 1 содержит два раздела,
<pb n="1"/>
<div type="cartoon">....</div>
<div type="poem">
 <head>Progress</head>....
</div>
Страница 2 также содержит два раздела разного типа:
<pb n="2"/>
<div type="prose">
 <head>The enchanted castle</head>....
</div>
<div type="snippet">
 <head>Correspondence</head>....
</div>

7. Почему разделы, а не страницы?

Потому что раздел может начаться на одной странице (например, стр. 5) и закончиться на другой (стр. 6).

Границы страниц мы можем разметить с помощью пустого элемента <pb>. Это лучше, чем размечать каждую страницу как <div type="page">.

<pb n="5"/>
<div type="cartoon">...</div>
<div type="review">
 <head>Egypt in Venice</head>... <pb n="6"/> ...
</div>
<div type="cartoon">...</div>
<div type="verse">
 <head>Enigma</head>...
</div>
<div type="snippets">...</div>

Порядок появления разделов не всегда предсказуем.

8. Разделы могут состоять из разделов...

<div type="snippets">
 <div type="snippet">Curiously....Chancellor</div>
 <div type="snippet">Men for the Antarctic... Canadians</div>
</div>
  • TEI также предлагает названия элементов разделов, содержащие указание на «глубину» расположения раздела в структуре документа (<div1>, <div2> etc.). Многие считают, что это удобно
  • Разделы всегда расположены строго по нисходящей: если вы спустились на нижний уровень, то выдолжны на нем и оставаться.

9. Плавающий текст

Как было сказано, элементы <div> должны быть расположены под всем текстом «старшего» раздела
<div1>
 <p> ... </p>
 <div2>
  <p> ... </p>
 </div2>
 <div2>
  <p> ... </p>
 </div2>
</div1>
это правильная структура, НО
<div1>
 <p> ... </p>
 <div2>
  <p> ... </p>
 </div2>
 <p> ... </p>
</div1>
неправильная.

Для подобных «перебивок» существует специальный элемент <floatingText> (плавающий текст)

10. Что входит в состав раздела?

(кроме более мелких разделов)

  • <head> (название)
  • <p> (абзац)
  • <sp> (речь), этот элемент может включать в себя все ниже приведенные элементы, а также <stage> (сцена) и <speaker> (говорящий)
  • <list>, включает элементы <head> (название), <label> (ярлык), <item>(единица)
  • <table> (таблица), включает элементы <row> (строка), содержащий элемент <cell>(графа) ...
  • <l> (строка или стих), несколько элементов обычно группируются как <lg> (группа строк или строфа)
  • <figure> (изображение), включает элементы <graphic> (графика), <figDesc> (описание изображения), <head> (заглавие)...

11. Пример

Скетч (карикатура и диалог) на странице 3:
<div type="cartoon">
 <figure>
  <head>Когда корабли возвращаются на рейд</head>
  <figDesc>Турок лежит на диване, курит сигарету и внимательно читает книгу «Все о
     военном флоте». Грек, стоя за его спиной, изучает свою записную книжку.</figDesc>
  <graphic url="Punch/XML/Graphics/003.png"/>
 </figure>
 <sp>
  <speaker>Грек.</speaker>
  <p>Не пора ли нам опять...</p>
 </sp>
 <sp>
  <speaker>Турок.</speaker>
  <p>Я думаю, пора. Когда вы будете готовы?</p>
 </sp>
 <sp>
  <speaker>Грек.</speaker>
  <p> Хм, через несколько недель.</p>
 </sp>
 <sp>
  <speaker>Турок.</speaker>
  <p>Нет, не подходит. Я буду готов только к осени.</p>
 </sp>
</div>

12. Пример

The militants' tariff (страница 15): название, абзацы и таблица...
<div type="prose">
 <head>THE MILITANTS' TARIFF.</head>
 <head rend="right">Etna Lodge, W.</head>
 <p>Mrs. Bangham Smasher, having entered into partnership with the Misses Burnham
   Blazer, as General Agents of Destruction, begs to inform the public that the firm
   will be prepared to execute commissions of all kinds, at the shortest notice, on the
   very moderate terms given below : – </p>
 <table>
  <row role="label">
   <cell/>
   <cell>£</cell>
   <cell>s.</cell>
   <cell>d.</cell>
  </row>
  <row>
   <cell>For breaking windows, per window ...</cell>
   <cell>0</cell>
   <cell>7</cell>
   <cell>6</cell>
  </row>
  <row>
   <cell>For howling, kicking, or biting during service in church, per howl, kick, or
       bite ...</cell>
   <cell>0</cell>
   <cell>10</cell>
   <cell>6</cell>
  </row>
  <row>
   <cell>For sitting on doorsteps of obnoxious persons, per hour, if fine ...</cell>
   <cell>0</cell>
   <cell>15</cell>
   <cell>0</cell>
  </row>
  <row>
   <cell>For sitting on doorsteps of obnoxious persons, per hour, if wet ...</cell>
   <cell>1</cell>
   <cell>1</cell>
   <cell>0</cell>
  </row>
<!-- ... -->
 </table>
</div>

13. Глобальные атрибуты

Некоторые характеристики, такие как:
  • идентификационный код
  • язык
  • оформление (rendition)
в принципе могут распространяться на любой фрагмент документа.
TEI предполагает следующее использование глобальных атрибутов:
  • xml:id – уникальный идентификационный код любого элемента;
  • n – порядковый номер элемента
  • xml:lang – язык элемента (указывается в виде стандартного кода ISO)
  • rend и rendition – определяет офрмление элемента

14. Пример

Egypt in Venice (страница 05) Заголовок и подзаголовок, последний на французском:
<div type="prosexml:lang="enxml:id="I1914-07-01_05_02">
 <head>Egypt in Venice.</head>
 <head xml:lang="frrend="it">"La Légende de Joseph."</head>
 <p>Those who know the kind of attractions that the Russian ballet offers in so many of
   its themes ....</p>
</div>
Последний из стихов каждой строфы стихотворения на станице 10 выделен увеличенным отступом:
<lg>
 <l>There were eight pretty walkers who went up a hill;</l>
 <l>They were Jessamine, Joseph and Japhet and Jill,</l>
 <l>And Allie and Sally and Tumbledown Bill,</l>
 <l rend="indent">And Farnaby Fullerton Rigby.</l>
</lg>

15. Макроструктура 1

Все выпуски Punch за один год составляют том. Мы можем рассматривать том как отдельный <text> (текст) и каждый выпуск как отдельный <div> (раздел) текста. Или мы можем воспользоваться элементом <group> (группа):
<text xml:id="v147">
 <front>
<!-- Здесь: введение к тому 147 -->
 </front>
 <group>
  <text xml:id="I1914-07-01">
   <body>
<!-- первый выпуск (1 июля) -->
   </body>
  </text>
  <text xml:id="I1914-07-15">
   <body>
<!-- второй выпуск (15 июля) -->
   </body>
  </text>
<!-- etc... -->
 </group>
 <back>
<!-- содержание тома, приложения и т.д. -->
 </back>
</text>

16. Макроструктура 2

У нас есть текст, подробные метаданные каждого тома и цифровые изображения всех страниц. Что соответствует трем каноническим частям TEI-документа:
<TEI>
 <teiHeader>
<!-- элемент обязателен; содержит метаданные -->
 </teiHeader>
 <facsimile>
<!-- текст, представленный как изображение -->
  <note>текст в виде фотографий источника</note>
 </facsimile>
 <text>
<!-- текст, готовый к публикации и размеченный -->
  <note>текст в форме транскрипции с разметкой</note>
 </text>
</TEI>

17. Макроструктура 3

Если некоторое множество документов объединено как корпус (а не коллекция), то, возможно, полезно вычленить их общие метаданные:
<teiCorpus>
 <teiHeader>
<!--общие метаданные -->
 </teiHeader>
 <TEI>
  <teiHeader>
<!-- специальные метаданные -->
  </teiHeader>
  <text>
<!-- ... -->
  </text>
 </TEI>
 <TEI>
  <teiHeader>
<!-- специальные метаданные -->
  </teiHeader>
  <text>
<!-- ... -->
  </text>
 </TEI>
</teiCorpus>

18. Метаданные какого рода?

Для ВПР и подобных ему проектов, нам необходимо место, чтобы разместить следующую информацию
  • идентификацонный код ресурса («что это?»)
  • заявление об ответственности («кем что и когда сделано?»)
  • указание источника публикации («какой текст лег в основу публикации?»)
  • заявление о публикации («каким образом и кто распространяет данное издание?»)
  • декларация кодировки («что значит добавленная нами кодировка?»)

Паспорт TEI-документа (TEI header) содержит всю эту информацию, и не только ее.

19. Паспорт TEI-документа (TEI header)

паспорт TEI-документа разрабатывался с учетом потребностей двух групп пользователей
  • библиографов и библиотекарей при каталогизации «электронных изданий»
  • аналитиков текста при документации «практики кодировки» цифровых ресурсов
С одной стороны, паспорт ДЛЯ БИБЛИОТЕКАРЯ
  • использует стандартные библиографические понятия
  • учитывает уже существующие системы создания библиографических описаний (например, MARC)
  • отдает предпочтение структурированным данным, а не «свободной прозе»
С другой стороны, паспорт ДЛЯ КАЖДОГО
  • предполагает поддержку (потенциально) самой разной неоднородной и случайно (ad hoc) организованной информации
  • непредсказуемая комбинация точно размеченной системы документации и описаний, выполненных в «свободной прозе»

20. Структура паспорта TEI-документа

Паспорт TEI-документа включает четыре основных компонента:
  • <fileDesc> (описание файла) содержит исчерпывающее библиографическое описание файла.
  • <encodingDesc> (описание кодировки) документирует связи между цифровым текстом и его источником (источниками).
  • <revisionDesc> (описание редактирования) информирует об истории изменения файла.
  • <profileDesc> (краткое «жизнеописание» описание текста) содержит детальное описание небиблиографических аспектов текста, в частности языка(-ов) текста, истории создания текста, информацию о лицах, участвовавших в создании текста и т.д. (другими словами – всю информацию, не вошедшую в другие элементы)

Обязательным элементам является только <fileDesc> (описание файла), все остальные – факультативные.

21. Образец паспорта TEI-документа для ВПР

<teiHeader>
 <fileDesc>
  <titleStmt>
   <title>Punch, or the London Charivari, Vol. 147, July 1, 1914</title>
  </titleStmt>
  <publicationStmt>
   <idno type="gutenberg">24357</idno>
   <availability>
    <p>В границах юрисдикции законодательства США и Великобритании текст может быть
         свободно использован повторно, гражданам других стран при повторном
         использовании текста рекомендуется обратиться за юридической справкой в
         соответствующие инстанции.</p>
   </availability>
  </publicationStmt>
  <sourceDesc>
   <p>Данный текст является TEI-версией текста проекта Gutenberg (PG). Оригинальный
       текст <ptr
      target="http://www.gutenberg.org/dirs/2/4/3/5/24357/"/>
. Согласно
       лицензионному соглашению, нами были сняты все сноски на знак PG.</p>
  </sourceDesc>
 </fileDesc>
 <revisionDesc>
  <change when="2008-07-26T23:49:55.968+01:00"/>
 </revisionDesc>
</teiHeader>

22. Под знаком «параграф»...

Элементы, о которых мы говорили, включают множество предусмотренных TEI способов для разметки более мелких компонентов текста. Например:
  • границы текста: страница, колонка (столбец), конец строки
  • выделение, подчеркивание и кавычки
  • изменения в ходе редактирования: исправления, нормализация и т.д.
  • названия (наименования и личные имена), числа, даты, адреса...
  • сноски и перекрестные ссылки
  • замечания, аннотации, индексы
  • графика
  • библиографические ссылки
  • анализ слов и других элементов текста

23. Выделение (Highlighting)

Под выделением мы понимаем любую комбинацию типографических способов (шрифт, размер, цвет, etc.), позволяющую выделить часть текста. Причины выделения текста могут быть самыми разными...
  • выделение иностранных слов, архаизмов, технических терминов
  • выделение значимых слов (фрагментов) речи (высказывания)
  • выделение элементов, не являющихся собственно частью текста (перекрестных ссылок, названий, заголовков...)
  • выделение элементов, принадлежащих различным агентам внутри или вне текста (прямая речь, кавычки)

TEI предлагает как общий тег <hi>, так и большое количество специальных тегов...

24. Несколько примеров выделений

  • <hi> (выделено: причина неизвестна либо не имеет значения)
    <p>[Оставшаяся часть доклада опущена по причине недостатка места.—<hi rend="sc">Ред</hi>.]</p>
  • <emph> (подчеркнуто, акцентировано)
    <said>'E won't bite yer <emph>if you buy 'im</emph> guv'ner.</said>
  • <title> (название) и <foreign> (иностранный):
    <p>
     <foreign xml:lang="fr">À propos</foreign> of Oxford, it is a question whether that
    extremely amusing book <title>Verdant Green</title> is still much read by freshers.

    </p>
  • <distinct> (лингвистически маркировано)
    But then I remind myself that the Russian
    ballet is nothing if not <distinct>bizarre</distinct>

25. Кавычки

Причины использования знака в тексте можно уточнить с помощью тегов:
  • <q> - используется, если причина употребления знака неясна или неважна
  • <said> - речь или мысль
  • <quote> - указание на внешний источник
  • <mentioned> и <soCalled> - нюансы нарративного статуса
<p>
 <said who="#Celia">I know a lovely tin of potted grouse,</said> said Celia, and she
went off to cut some sandwiches.
</p>
<head>How to utilise the art of <soCalled>suggestion</soCalled>
</head>
<head>The Doctor, six down at the turn, <soCalled>suggests</soCalled> to his opponent that
they are playing croquet, and wins by two and one.</head>

26. Кавычки 2

Заметим, что эти элементы расположены по принципу матрешки (один в другом):
<p>The poet returned to his work. <said>
  <quote>In tooth and claw,</quote>
 </said> he muttered to himself, <said>
  <quote>In tooth and claw.</quote>
 </said>
</p>

27. Интервенция публикатора

В качестве простого примера: ‘Excuse me sir, but would you like to buy a nice little dawg?’ (страница 6)

Мы можем:
  • воспользоваться тегом <orig> и указать, что в оригинале стоит "dawg", даже если это написание не соответствует правилам
  • воспользоваться тегом <reg> и указать, что написание "dog" является редакторской правкой
  • поместить оба варианта внутрь элемента <choice>, если наша схема это позволяет:
...a nice little <choice>
 <orig>dawg</orig>
 <reg>dog</reg>
</choice>?

28. Личные имена, географические названия, наименования...

  • <name> - наименование в тексте; наименование представляет собой имя собственное или именное словосочетание
  • <rs> - устоявшееся название или ссылка
  • <title> - название в любой форме

Атрибут type используется для указания, к какой котегории относится имя или название. Также эти указанные элементы могут иметь атрибуты key, ref и nymRef.

29. Имена и названия: примеры

Использование атрибута type для разграничения личных имен и географических названий:
<p>The scene opens at a party given by <name type="person">Potiphar</name> in <name type="place">Venice</name>. </p>
Использование атрибутов key и ref при указании сносок и атрибутации (to de-reference) ссылок и связывании присутствующих в тексте имен и названий:
<p>
 <label>Business done.</label>—The Commons still harping on the Budget. <name
   type="person"
   ref="http://en.wikipedia.org/wiki/Timothy_Michael_Healy">
Tim
   Healy</name> enlivened proceedings by vigorous personal attack on <q>the most reckless
   and incapable <rs key="LLG">Chancellor of the Exchequer</rs> that ever sat on the
   Treasury Bench.</q>
 <name key="LLG">Lloyd George's</name> retort courteous looked forward to with
interest.
</p>

30. Даты

  • Элемент <date> (дата) может содержать указание на дату или время в любом форме
  • Для машинной обработки дата конвентируется в нормализированный формат с помощью атрибута when (когда).
  • Если дата и/или время указаны неточно, могут быть использованы атрибуты: notBefore (не ранее), notAfter (не позднее), from (от), to (до)
<p>House of Commons, <date when="1914-06-22"> Monday, June 22, 1914</date>.</p>
<p>
 <date notAfter="1914-06-01notBefore="1914-03-01"> Sunday, a month ago,</date> was
hot.
</p>

31. Перекрестные ссылки

Перекрестные ссылки представляют собой сноску от одной точки текста (сноска) к другой (адрес ссылки).

TEI предлагает общие элементы <ptr> и <ref> для подобных целей. Если есть возможность автоматически генерировать перекрестную ссылку, используется элемент <ptr>; во всех остальных случаях используется элемент <ref>.

Сноска – место текста, указанное в элементе <ptr> или <ref>; адрес ссылки указывается в атрибуте target в форме URI-ссылки .

See <ref target="#Section12">section 12 on page 34</ref>.
See <ptr target="#Section12"/>.

32. Библиографическая ссылка

TEI предлагает специальные элементы для библиографических ссылок:
  • <bibl> (свободная структура)
  • <biblStruct> (стандартная структура библиографии)
  • <listBibl> (включает список библиографии)

Эти элементы, как правило, используются при подготовке библиографии или при оформлении ссылок. Но у нас есть примеры и из Punch.

33. Пример <bibl>

В Punch ссылки часто сопутствуют цитатам из других газет:

Элемент <cit> включает как цитату, так и ссылку:
<cit>
 <quote>It was the time when Henry III. was batting with Simon de Montfort and his
   Barons.</quote>
 <bibl>
  <title>Straits Times.</title>
 </bibl>
</cit>

34. Примечания

Примечания, которые находятся непосредственно в оригинальном тексте или были добавлены редактором, могут быть размечены с помощью элемента <note>.

Мы можем добавить некоторые биографические сведения об одном из персонажей Punch в наше издание:
<p>By-the-by, it is denied that Sir <name rend="sc">Joseph Beecham</name>
 <note>Sir Joseph Beecham, 1st Baronet (8 June 1848 – 23 October 1916)...</note>. was
in any way responsible for the Government's "Pills for Earthquakes," by which it was
hoped to avert the Irish crisis.</p>

Атрибуты элемента <note>: place и resp.

35. Примечания, связанные между собой

Поскольку у нас в тексте может быть несколько упоминаний одного и того же лица, мы можем поместить примечание в определенном месте и в дальнейшем указывать местоположение примечания:
<div type="notes">
 <note xml:id="BEECHJO">Sir Joseph Beecham, 1st Baronet (8 June 1848 – 23 October 1916)
   the eldest son of Thomas Beecham (1820-1907) played a large part in the growth and
   expansion of his father's medicinal pill business which he joined in 1866....</note>
<!-- other notes -->
</div>
<div type="snippets">
 <p>... Both Earl <name rend="sc">Beauchamp</name> and <name>Sir <ref target="#BEECHJO">Joseph Beecham</ref>
  </name> appear in the recent Honours List.</p>
 <p>By-the-by, it is denied that Sir <name rend="scref="#BEECHJO">Joseph
     Beecham</name> was in any way responsible...</p>
</div>

В данном случае также может быть использован специальный элемент <person>.

«В определенном месте» может означать: где угодно в Интернете...



Date: 2008-07-07
Copyright University of Oxford