- Введение
- Какие упоминания мы берем, а какие — нет?
- Какие типы упоминаний бывают?
- Как отличается разметка объектных и необъектных упоминаний?
- Как определить, являются ли упоминания кореферентными?
- Как найти границу упоминания в тексте?
- Как это все сделать в программе для разметки?
- Полезные тесты
- Сложные случаи
Важно: в коротких примерах по тексту инструкции могут быть размечены не все примеры, а только релевантные описываемой проблеме.
Все (почти) примеры взяты из newsru.com.
Для успешной разметки необходимо разобраться в следующих вещах:
- Что такое кореференция и анафора?
- Что именно мы будем размечать?
- Как именно мы будем это размечать?
Короткие ответы на эти вопросы выглядят так:
-
Языковые выражения называются кореферентными, если они называют один и тот же объект действительности. Например:
Мелия на прошедшей неделе посетил [Киев]0, [где]0 встречался с [основателем [ЕНД]1 экс-президентом Грузии Михаилом Саакашвили]2, обсудив с [ним]2 стратегию [партии]1 по приходу к власти.
Здесь: "Киев" и "где" называют одну и ту же локацию; "основателем ЕНД экс-президентом Грузии Михаилом Саакашвили" и "ним" называют одну и ту же персону; "ЕНД" и "партии" называют одну и ту же организацию. Одинаковые индексы рядом с квадратными скобками обозначают одну и ту же сущность.
Анафорой называется зависимость интерпретации одного выражения от другого. В примере выше для значение местоимения "ним" зависит от выражения "основателем ЕНД экс-президентом Грузии Михаилом Саакашвили".
-
Размечать мы будем языковые выражения, которые чему-нибудь кореферентны. Для простоты мы будем называть их упоминаниями. Языковые выражения, для которых в тексте нет кореферентного выражения, мы размечать не будем.
-
На вопрос "как" короткого ответа нет 😊. Но описание будет состоять из нескольких пунктов:
Самое важное — мы берем только такие упоминания, которые чему-нибудь кореферентны в данном тексте. Например:
Ранее США ввели санкции против фонда имени Ахмата Кадырова, созданного по инициативе [главы Чечни Рамзана Кадырова]0, а также против связанных с [ним]0 компаний и спортивных клубов.
Только два упоминания в тексте кореферентны друг другу, потому аннотируются только они.
Ранее США ввели санкции против фонда имени Ахмата Кадырова, созданного по инициативе [главы [Чечни]1 Рамзана Кадырова]0, а также против связанных с [ним]0 компаний и спортивных клубов. [Кадыров]0 заявил, что эти ограничения никак не повлияют на [республику]1.
При добавлении еще одного предложения к тексту у "Чечни" появляется кореферентное упоминание "республику". Теперь оба упоминания аннотируются.
Среди таких упоминаний нас интересуют перечисленные ниже:
-
Именные группы, т. е. словосочетания с именем существительным (или субстантивированным прилагательным/числительным/причастием) в роли главного слова1:
[Никто] не может присваивать [власть] в [Российской Федерации].
[Захват [власти]] или [присвоение [властных полномочий]] преследуются по [федеральному закону].
А [те двое] разглядывают что-то еще.
[Протестующие] вышли на [проезжую часть], парализовав [движение [транспорта]].
На [Норильской обогатительной фабрике] из-за [обрушения [здания]] погибли [рабочие].
-
Личные местоимения (я, мы, ты, он, она и т. д.)
-
Притяжательные местоимения (мой, наш, твой и т. д.)
-
Возвратные и возвратно-притяжательные местоимения (себя, свой)
-
Взаимное местоимение «друг друга» и аналогичные ему
-
Относительные местоимения (который, куда, где и т. д.)2
-
Вопросительные местоимения (кто, что и т.д.)
Что нас пока точно не интересует:
-
Прилагательные:
[Британские]0 власти также подчеркивают, что 60% товаров, производимых в Шотландии, реализуются в [Соединенном Королевстве]0, а дополнительные инвестиции в этот северный регион составляют несколько миллиардов фунтов стерлингов.
-
Моменты/отрезки времени: "вчера", "прошлые выходные", "2020 год", "полночь", "двадцать лет".
-
Упоминания-клаузы:
[Между тем к расследованию инцидента с самолетом Ryanair подключилось Федеральное бюро расследований США]0. Как сообщил глава бюро Криминальной полиции Литвы Роландас Кишкис, [это]0 было сделано, поскольку ФБР располагало информацией о том, что среди пассажиров были и граждане США.
-
Нулевые упоминания:
«[]0 Вступая в гражданство, [я]0 испытываю неописуемый восторг»: [Жириновский]0 написал текст клятвы для желающих стать россиянами.
– Особый садизм системы – даже по видеосвязи с судом оставлять решетку, – написал [Иван Жданов]0 в [своем]0 Instagram после заседания. – []0 Не уверен, что он вообще все хорошо слышал, что происходит в суде с учетом его слуха.
Подытожим:
- Мы размечаем только упоминания, которые кореферентны какому-нибудь другому упоминанию. "Одиночки" нас не интересуют.
- Среди этих упоминаний размечаем только такие, которые входят в список интересующих нас упоминаний и не входят в список не интересующих нас упоминаний.
Помимо синтаксических свойств нас еще интересует смысл, стоящий за каждым упоминанием. Наиболее важны для нас ответы на следующие вопросы:
- Упоминание скорее отсылает к некоторому конкретному объекту или к некоторому понятию, абстракции, ситуации?
- Упоминание скореет отсылает к одному элементу или некоторому множеству элементов? Если к множеству, то это скорее определенный набор элементов или открытое множество?
От ответов на эти вопросы зависит то, как мы будем размечать такие упоминания.
Давайте определимся с понятиями:
- Объектное упоминание — упоминание, отсылающее к одному конкретному объекту или к конкретному множеству таких объектов.
- Необъектное упоминание — любое другое упоминание.
Разберем поподробнее, что мы считаем конкретным объектом. Мы понимаем конкретный объект как единичный уникальный объект, отличающийся от всех остальных подобных объектов. Это может быть некоторый определенный человек, предмет, животное, локация, организация, страна или что-то, что может не иметь фиксированного физического воплощения: документ, произведение искусства, продукт, видеоигра, веб-сайт и т. д.
Что не является конкретным объектом:
-
В первую очередь ситуации. К ним мы относим упоминания, которые описывают некоторые события, действия, состояния, процессы. Лакмусовой бумажкой для определения ситуации будет наличие у нее участников, необходимых для ее существования. Например:
Этот рейс стал первым после [трехдневного перерыва]0, в течение [которого]0 пассажиров Air France перевозил российский "Аэрофлот".
"Перерыв" описывает ситуацию, когда некоторое действие Х временно перестало иметь место. Таким образом, в отрыве от этого Х "перерыв" не существует.
[Этот рейс] стал первым после трехдневного перерыва, в течение которого пассажиров Air France перевозил российский "Аэрофлот".
"Рейс" сложно назвать ситуацией в классическом понимании, однако у него также есть участники: исходный пункт, пункт прибытия, выполняющая его сторона. Смена любого из участников ведет к тому, что мы получаем другой "рейс", т.е. его существование напрямую зависит от участников.
[Смерть 54-летнего мужчины] наступила из-за заболевания сердца.
"Смерть" в данном контексте является ситуацией, которая невозможна без участника (умершего мужчины). Смерть кого-нибудь еще будет уже другой ситуацией. Отсутствие умерших ведет к отсутствию ситуации смерти.
-
Нереферентные/родовые упоминания (такие, которые не отсылают к конкретной сущности, а называют класс объектов). Зачастую смысл высказывания не меняется, если добавить к этому упоминанию слова вроде "любой", "какой-либо", "никакой":
[Президент России Владимир Путин]0 полагает, что [искусственный интеллект] (ИИ) не сможет стать [президентом]. Так [глава государства]0 ответил на вопрос голосового ассистента «Афина».
Оба выделенных жирным шрифтом упоминания не отсылают к конкретному объекту, а называют обобщенное понятие. Можно перефразировать:
никакой искусственный интеллект не сможет стать президентом -
Параметры: "количество заболевших коронавирусом", "средний размер задолженности по ипотеке".
Кстати, тест на участников сработает и здесь - "количество" и "размер" не существуют без участников (количество и размер чего?).
Конкретным множеством мы считаем определенный фиксированный набор конкретных объектов. Все остальные множества считаются неконкретными.
В результате этого инцидента пострадали [восемь человек].
Множество "восемь человек" включает в себя определенное количество конкретных людей. Это конкретное множество.
[Корреспондента газеты "Коммерсант" Олега Кашина]0 жестоко избили [неизвестные]1 около [его]0 дома на Пятницкой улице. "[Несколько человек]1 напали на [него]0..."
Множество "неизвестные" в данном контексте отсылает нас к определенной группе конкретных людей определенного (но не указанного) количества. Тот факт, что в тексте не указаны имена или количество этих людей, не меняет того, что действие совершено конкретным количество людей. Это конкретное множество.
"Закон Сигала" предусматривает введение реальных сроков и лишение права занимать определенные должности за загрязнение [окружающей среды].
"Окружающая среда" — это совокупность объектов живой и неживой природы, взаимодействующих с человеком. Таким образом, это множество определяется через квантор: "все объекты живой и неживой природы, взаимодействующие с человеком". Появление нового объекта, удовлетворяющего условию, автоматически делает его частью окружающей среды. Итого, "окружающая среда" — это неконкретное множество.
Кстати, обратите внимание, что упоминание множества не обязательно будет иметь показатель множественного числа. Другие примеры: "толпа", "группа".
по результатам [трех последних соревнований]
Несмотря на то, что количество здесь вполне определено, элементы множества по отдельности не являются конкретными объектами ("соревнование" является событием), поэтому это неконкретное множество.
Как уточняет [британская пресса], на церемонии присутствовали, в соответствии с антиковидными ограничениями, всего 30 гостей.
Множество "британская пресса" в данном контексте включает в себя неопределенный набор СМИ, которые объединены общим признаком. Это неконкретное множество.
Подытожим: объектные упоминания – это упоминания конкретных объектов и конкретных множеств. Все остальные упоминания считаются необъектными.
Или еще раз: объектные упоминания называют объекты и множества объектов, а необъектные упоминания называют ситуации, параметры, классы объектов и неконкретные множества.
Зачем нужно это различие? См. следующий раздел :)
Правила на самом деле довольно простые:
-
Для всех объектных упоминаний мы размечаем все кореферентные упоминания в тексте.
-
Для необъектных упоминаний мы размечаем только анафорические местоимения. При этом несколько цепочек не объединяются в одну:
«Надеюсь, что нет. Во всяком случае, пока», - сказал [Путин]0, отметив, что у [ИИ]1 нет «сердца, души, чувства сострадания и совести». Однако [он]1, по мнению [Путина]0, может быть учителем и помощником. «Без всякого сомнения, [искусственный интеллект]2 может быть хорошим подспорьем, хорошим помощником, даже учителем любого человека, и главы государства в том числе. [Он]2 может быть инструктором, [он]2 может быть ассистентом», - пояснил [Путин]0 (цитата по ТАСС).
Обратите внимание, что цепочки #1 и #2 не объединяются.
Внимание: все в этом разделе относится только к объектным упоминаниям. Для необъектных размечается только связь анафорического местоимения и его антецедента.
Здесь придется ориентироваться на собственное владение русским языком. Главное правило — это то, что кореферентные упоминания относятся к одной и той же сущности. Тем не менее, некоторые советы все-таки есть:
-
Не всегда одни и те же слова отсылают к одной и той же сущности:
[Президент России Владимир Путин]0 полагает, что искусственный интеллект (ИИ) не сможет стать [президентом]x. Так [глава государства]0 ответил на вопрос голосового ассистента «Афина». <..> «Надеюсь, что нет. Во всяком случае, пока», - сказал [он]0, отметив, что у ИИ нет «сердца, души, чувства сострадания и совести». Однако ИИ, по мнению [Путина]0, может быть учителем и помощником. «Без всякого сомнения, [искусственный интеллект]1 может быть хорошим подспорьем, хорошим помощником, даже учителем любого человека, и [главы государства]x в том числе. [Он]1 может быть инструктором, ассистентом», - пояснил [Путин]0 (цитата по ТАСС).
Здесь цепочки #0 и #x не являются кореферентными, хотя и обе называют президентов.
Цепочка #0 относится к конкретной личности, в то время как цепочка #x относится к самой должности президента. Неконкретную цепочку "должность президента" размечать мы не будем.
-
Мы не считаем кореферентными части утверждения вида X IsA Y (конструкции с глаголами "быть", "являться", "стать" и т.д.). Например:
В ЮАР скончался [шимпанзе Чарли]0. [Чарли]0 – обитатель зоопарка в Блумфонтейне – привлекал внимание тысяч посетителей этого "города роз", как именуют за живописные цветники столицу провинции Свободное Государство.
"Обитатель зоопарка в Блумфонтейне" не является кореферентным "шимпанзе Чарли".
[Футболисты лондонского "Челси"]0 стали победителями Лиги чемпионов сезона-2020/21, обыграв в финальном матче на стадионе "Драгау" в португальском Порту "Манчестер Сити". Английский финал главного еврокубка завершился со счетом 1:0 в пользу [лондонцев]0.
Словосочетание "победителями Лиги чемпионов сезона 2020/21" не выделено как упоминание и не является кореферентным цепочке #0.
-
Не считаются кореферентными имена и образованные от этих имен названия:
В Самаре лишь один из ста школьников - участников специального опроса, смог правильно ответить на вопрос, кто такой [Ленин]0. Такие результаты дал опрос, проведенный сотрудниками Самарского музея имени Ленина в ходе интерактивной выставки, посвященной жизни [вождя мирового пролетариата]0.
-
Не размечаются в одну цепочку упоминания, если одно из них отсылает только к части сущности(-ей):
[Знаменитый роман Николая Васильевича Гоголя "Мертвые души"]0 впервые вышел в России с иллюстрациями Марка Шагала. <…> Открывает [книгу]0 предисловие известного литературного критика Игоря Золотусского, автора неоднократно издававшейся художественно-биографической книги о Гоголе. <..> Наконец, существует и своеобразная версия о том, что Гоголь завершил [второй том]1, но [рукопись]1 была похищена его недоброжелателями и мнимыми друзьями.
Цепочка #0 отсылает к книге вообще, цепочка #1 – только к второму тому.
-
Иногда одно и то же упоминание может отсылать сразу к нескольким сущностям. В таком случае оно связывается с каждой из них. Мы называем такие упоминания родительскими.
[Четверо граждан Индии, учащихся волгоградского вуза]1,2,3, утонули в [реке Волга]0. [Они]1,2,3 отдыхали с сокурсниками на берегу [Волги]0 на пляже хутора Бобры Среднеахтубинского района, передает "Интерфакс" со ссылкой на пресс-службу следственного управления СК по региону. По предварительной версии следствия, около 2 часов утра 8 августа [один из [них]1,2,3]1 решил искупаться. Когда [он]1 отплыл достаточно далеко от берега, течение стало [его]1 уносить, и [он]1 начал звать на помощь. Сначала к [тонущему]1 подплыл [другой индийский студент]2 и начал тащить [его]1, но у [него]2 не получилось, тогда к [ним]1,2 добрались еще [двое]3.
Выделенные упоминания связаны сразу с несколькими сущностями.
Обратите внимание, что упоминание "двое" считается за отдельную сущность, потому что входящие в него студенты не названы отдельно. Вообще не выделить его мы тоже не можем, т. к. к нему в том числе отсылает упоминание "Четверо граждан Индии, учащихся волгоградского вуза".Важно: родительским упоминанием может быть только упоминание, имеющее нескольких референтов. Отношения "часть-целое" сюда не входят.
Важно: родительским упоминанием может быть только конкретное множество.
"В Instagram написала Марии Захаровой, потому что по телевизору показали, что якобы с [отцом [Софьи]0]1 была связь у МИДа. Но с [отцом]1 никто не связывался. [Мы]1,2 с [ним]1 24/7, вчера весь день провели в Минске. Нашли [её]0 на Окрестина. [Я]2 спрашивала, что [ей]0 предъявляют. [Мне]2 сказали: Статья 108 УПК РБ", - заключила [мать [россиянки]0]2.
Обратите внимание, что в конструкции "Мы с ним" размечаются два упоминания: отдельно "мы", отсылающее к двум сущностям, и "ним".
-
Несколько упоминаний могут быть связаны общим синтаксическим родителем. В таком случае родитель отдельно не размечается:
Накануне следствие заявляло, что одна из целей их прибытия в Беларусь - организация массовых беспорядков и что они могут быть связаны с оппозиционерами [Сергеем Тихановским]0 и [Николаем Статкевичем]1.
Родительское упоминание включало бы в себя упоминания детей: "оппозиционерами Сергеем Тихановским и Николаем Статкевичем"; такие упоминания не размечаются.
При этом если в тексте есть другие относящиеся к этим же сущностям упоминания, они размечаются по обычным правилам:Накануне следствие заявляло, что одна из целей их прибытия в Беларусь - организация массовых беспорядков и что они могут быть связаны с оппозиционерами [Сергеем Тихановским]0 и [Николаем Статкевичем]1. 14 декабря 2021 года [оба оппозиционера]0,1 были приговорены к тюремному заключению.
Президенты России и Белоруссии [Владимир Путин]0 и [Александр Лукашенко]1 в субботу продолжили встречу в Сочи в "неформальной обстановке". По сведениям белорусского Telegram-канала "Пул Первого", связанного с пресс-службой [Лукашенко]1, [главы государств]0,1 договорились о втором транше госкредита и об открытии новых рейсов "Белавиа" в российские города.
Упоминания "Президенты России и Белоруссии" и "главы государств" отсылают к двум сущностям сразу.
-
Упоминания могут находиться в отношении метонимии. При этом мы не разделяем локацию и организацию, а считаем это все одним объектом:
[Резиденции британского премьера]0 пришлось опровергать драку двух министерских котов. [Даунинг-стрит]0 была вынуждена опровергнуть слухи о том, что между котом премьер-министра и кошкой министра финансов возникла вражда, передает Русская служба BBC.
[Лондон]0 и [Брюссель]1 официально объявили о соглашении по Brexit. [Евросоюзу]1 и [Великобритании]0 удалось выработать соглашение об отношениях после Brexit.
В этом разделе очень важны детали, так что tldr намеренно не приводится :).
В аннотацию упоминания включается словосочетание целиком со всеми зависимостями, но с несколькими исключениями:
- Не включаются в аннотацию причастные обороты, относительные придаточные и скобочные конструкции.
- Упоминания, отсылающие к нескольким синтаксически зависимым от них сущностям, не включают в аннотацию упоминания этих сущностей.
[Президент Украины]0 констатировал, что [Золочевский]1 "родился в рубашке". [Зеленский]0 пожелал [курсанту]1 скорейшего выздоровления и поручил оказать семье необходимую помощь. Вместе с [президентом]0 [выжившего]1 навестил [председатель Харьковской облгосадминистрации Алексей Кучер]2.
[Он]2 отметил, что [Золочевский]1 физически находится "даже в удовлетворительном" состоянии, но останется в больнице еще минимум неделю.
Выделенное упоминание стало довольно длинным, но это нормально — длина упоминания не ограничивается.
[Шестой обвиняемый - Александр Бурукин]0 признал [свою]0 вину частично.
Приложения размечаются в одно упоминание.
В Москве кассир Сбербанка вызвала в отделение на улице Виноградова сотрудников Росгвардии из-за [клиента]0, [который]0 хотел положить на [свой]0 счет 40 тысяч рублей накопленными за несколько лет десятирублевыми монетками. Об этом у [себя]0 на странице в Facebook рассказал [сам клиент банка, директор онлайн-площадки "Московский киберспорт" Василий Рябов]0.
Относительное придаточное "который хотел положить на свой счет..." не является частью аннотации "клиента". При этом внутри придаточного есть упоминания "который" и "свой", которые аннотируются как обычно.
Последнее упоминание стало довольно длинным, но это нормально.
[Няню из Узбекистана Гюльчехру Бобокулову]0, осужденную за убийство четырехлетней девочки в Москве, по окончании принудительного лечения вышлют из [России]1. Из ответа МВД на запрос РИА "Новости" следует, что решение о нежелательности пребывания [Бобокуловой]0 в [РФ]1 было принято еще в 2017 году.
Причастный оборот "осужденную за убийство четырехлетней девочки в Москве" не входит в аннотацию упоминания "Няню из Узбекистана Гюльчехру Бобокулову".
В случае, если бы причастный оборот предшествовал вершине, аннотация выглядела бы так:
осужденную за убийство четырехлетней девочки в Москве [няню из Узбекистана Гюльчехру Бобокулову]0
[Избитый журналист Олег Кашин]0 в медикаментозном сне, сообщила в субботу вечером в [своем]1 блоге [[его]0 супруга Евгения Милова]1.
Одиночные причастия, предшествующие вершине, включатся в аннотацию.
Напомним, в марте входящий в группу ВТБ ["БМ-банк"]0 (бывший "Банк Москвы") продал [акции [Московского межреспубликанского винодельческого завода]1 (ММВЗ) и [завода игристых вин "Корнет"]2]3. ["БМ-банк"]0 с 2014 года не раз пытался продать [акции [ММВЗ]1 и ["Корнета"]2]3, но все прежние попытки не увенчались успехом.
Скобочные конструкции не входят в аннотацию.
В случае, если упоминание «разорвано» (имеет непроективную структуру), размечается только та часть, которая содержит вершину (главное слово):
Мэр Лужков белей, чем репка,
Он свою снимает [кепку]3
И орет:
- Подать сюда
Этого Гибэдэда!
Несмотря на то, что слово "свою" является зависимым от "кепки", оно не включается в аннотацию, поскольку "снимает" не является частью этой именной группы. При этом "свою" может быть отдельным упоминанием для "мэра Лужкова" (здесь не размеченного, чтобы обратить внимание на "кепку").
Пунктуация и пробелы на границах упоминания не включаются в аннотацию. Исключение составляет пунктуация, которая является частью упоминания. Например, в упоминание включается точка, относящаяся к сокращению, являющемуся частью упоминания.
В первой редакции [«Войну и мир»]0 разделили на шесть томов. Впоследствии Толстой существенно сократил [роман]0 и ужал до четырех томов, однако позднее посчитал редакцию неудачной и вернул исключенные куски.
Кавычки по краям упоминания входят в аннотацию, потому что относятся к нему.
«<…> Сказал, что все происходило как в компьютерной игре, что [он]0, когда пришел в [себя]0, увидел, как горит [[его]0 товарищ]1, и [он]0 помогал фактически тушить пламя на [этом парне]1», - рассказал Кучер.
Выделенная кавычка не входит в аннотацию, потому что относится к прямой речи, а не к упоминанию.
Там, например, имеет место быть [известный охальник и дамский любитель Пушкин А. С.]0, с [его]0, с позволения сказать, романом в стихах «Евгением Онегиным».
Точки в выделенном упоминании аннотируются, потому что относятся к сокращению, входящему в упоминание.
Предлоги, управляющие именной группой, не входят в упоминание и не аннотируются:
На [Пушкинской площади]0 в Москве, [где]0 в субботу запланирована акция в поддержку Алексея Навального, внезапно начали перекладывать плитку.
Подытожим:
- Упоминанием считается словосочетание целиком, но без причастных оборотов и относительных придаточных.
- Пробелы на границах упоминания не аннотируются, пунктуация аннотируется, если только является частью упоминания.
- Предлоги, управляющие именной группой, не аннотируются.
Добавим первую сущность, выделив отрезок текста и выбрав в контекстном меню "Add".
Добавим еще аннотации этой сущности, выделив оба раза отрезок текста и кликнув по сущности на панели справа.
Если кликнуть по сущности на панели справа, она выделится черной рамкой. Теперь любой выделенный отрезок текста будет сразу отнесен к этой сущности.
Выделим остальные упоминания этой сущности. Затем кликнем по сущности (или по пустому пространству) на панели справа, чтобы отключить режим отнесения к ней всех выделенных отрезков текста.
Выделим еще одну кореферентную цепочку.
Обратим внимание на упоминание, которые отсылает сразу к двум студентам. Для того, чтобы зафиксировать этот факт в разметке, создадим на выделенном отрезке новую сущность.
Затем выделим объект "один из них" при помощи левого клика на лейбле на правой панели и кликнем правой кнопкой мыши по новой сущности "ним". Выберем "Set as parent", чтобы назначить сущность "ним" родителем сущности "один из них".
Сделаем то же самое с объектом "другой индийский студент. Теперь при наведении курсора на объект "ним" будут подсвечиваться все входящие в него упоминания.
Разметим еще одну родительскую сущность. Обратите внимание, что аннотации могут вкладываться друг в друга.
Добавим еще одну сущность, которая будет включена дочерней в цепочку "Четверо студентов из Индии".
Добавим объекты "один из них", "другой индийский студент", "двое", "ним" как дочерние к объекту "Четверо студентов из Индии".
Разметим все оставшиеся сущности.
Вы великолепны!
Не забудьте сохранить разметку :)
Разметка из инструкции доступна тут.
Внимание: Не работает с метонимией, а также с дочерними/родительскими сущностями.
Если сомневаетесь, кореферентны ли два упоминания, попробуйте заменить одно на другое. Если смысл высказывания не меняется, это хороший знак, что упоминания кореферентны.
Экспертиза показала, [Бобокулова]0 страдает хроническим психическим расстройством. При этом диагноз "шизофрения" [ей]? поставили еще на родине, но [женщина]? скрыла это от работодателей.
Экспертиза показала, [Бобокулова]0 страдает хроническим психическим расстройством. При этом диагноз "шизофрения" [Бобокуловой]0 поставили еще на родине, но [Бобокулова]0 скрыла это от работодателей.
Если сомневаетесь, является ли сущность родительской для другой сущности, ответьте себе на вопрос: справедливо ли любое утверждение про родителя и для потенциального ребенка?
"[Премьер-министр]0 и [госпожа Саймондс]1 поженились вчера днем, небольшая церемония прошла в Вестминстерском соборе. [Пара]?,? отпразднует свадьбу с семьей и друзьями следующим летом", - говорится в заявлении официального представителя [премьер-министра Великобритании]0.
Здесь утверждение "пара отпразднует свадьбу с семьей и друзьями следующим летом" значит "Борис Джонсон отпразнует свадьбу с семьей и друзьями следующим летом" и "Кэрри Саймондс отпразнует свадьбу с семьей и друзьями следующим летом". Следовательно, "пара" является родительской сущностью для "премьер-министра" и "госпожи Саймондс".
Если не уверены, является что-то ситуацией или нет, ответьте себе на вопрос, существует ли описываемый упоминанием объект в отрыве от места / времени / участников?
Например:
[Олимпийские игры в Пекине] увидят четыре миллиарда телезрителей.
Называемый объект не существует в отрыве от места (перенеси его в Сеул, и это будет уже другой объект) или времени (Олимпиада-2008 - это не то же самое, что Олимпиада-2022). Это ситуация.
Чуть больше года назад умер [Джордж Харрисон]0, [который]0 считал, что [его]0 рак спровоцирован курением.
"Рак" в примере выше не существует в отрыве от участника - Джорджа Харрисона. Это ситуация.
Больше половины россиян (64%) считают, что [коронавирус]0 возник искусственно как новая форма биологического оружия, лишь 23% говорят о [его]0 естественном происхождении, выяснил "Левада-центр"* в ходе февральского соцопроса.
Здесь речь идет о самом заболевании, а не о ситуации, когда кто-то переносит это заболевание. Таким образом, это не ситуация.
Напомним, что ситуации относятся к необъектным упоминаниям, т.е. для них размечается только анафора.
Чтобы понять, отсылает упоминание к конкретному объекту или нет, можно попробовать поменять форму упоминания на множественную или добавить к нему такие слова как "любой", "всякий", "многий", "какой-нибудь", "никакой". Если смысл не меняется, речь не идет про конкретный объект:
iPhone 13 поступил в магазины Сыктывкара. iPhone-ы 13 поступили в магазины Сыктывкара.
Смысл не меняется, речь не идет про конкретный объект.
Белый медведь - уникальный представитель животного мира Арктики, занесенный в Красную книгу. Белые медведи - уникальные представители животного мира Арктики, занесенные в Красную книгу.
Смысл не меняется, речь не идет про конкретный объект.
Белый медведь выгнал российских ученых из лагеря на Шпицбергене Белые медведи выгнали российских ученых из лагеря на Шпицбергене
Смысл меняется. Стоит внимательнее посмотреть на текст, возможно, речь идет про конкретный объект.
Вот только пользоваться-то этим списком, чтобы найти себе врача, несколько затруднительно. Вот только пользоваться-то этим списком, чтобы найти себе какого-нибудь врача, несколько затруднительно.
Смысл не меняется, речь не идет про конкретный объект.
Здесь закрепляем компромиссы, найденные для сложного и неочевидного в наших текстах.
Бывает, что не получается однозначно определить границы упоминания, потому что текст допускает два прочтения:
Рабочие [биохимического завода] в Свердловской области временно прекратили голодовку
Рабочие [биохимического завода в Свердловской области] временно прекратили голодовку
В таких случаях мы выделяем максимальную именную группу. Таким образом, правильный вариант:
Рабочие [биохимического завода в Свердловской области] временно прекратили голодовку
Бывает, что какая-то часть упоминания опускается. Общее правило таково, что если опущена вершина упоминания, упоминание не размечается:
Большинство землетрясений сосредоточено в [двух протяженных, узких зонах]0,1. [Одна из [них]0,1]0 обрамляет Тихий океан, а вторая тянется от [Азорских о-вов]2 на восток до Юго-Восточной Азии. <...> [Вторая зона]1 простирается на восток от [Азорских о-вов]2 через Альпы и Турцию.
В примере выше опущена вершина упоминания "вторая зона", поэтому упоминание не размечается. При этом оставшая часть вполне может быть валидным упоминанием сама по себе:
[Кирилл Мартынов]0: У людей бывают разные поводы для гордости, а [мой]0 - DOXA, [мои]0 студенты.
Выделенный отрезок текста содержит эллипсис: "мой (повод для гордости)". При этом упоминание "мой" размечается по-прежнему, посколько вершина этого упоминания ("мой") не опущена.
Часто эллипсис встречается в конструкциях с родовым словом:
Удивительно, но факт - сборные России и Канады ранее ни разу не встречались в финалах чемпионатов мира.
Здесь выделить упоминание "сборная Канады" мы не можем, потому что эллиптирована вершина ("сборная"). Упоминание "сборная России" мы выделить тоже не можем, т.к. в тексте есть только слово "сборные", которое относится к двум сборным сразу. Таким образом, в примере выше можно разметить только родительское упоминание "сборные Росии и Канады":
Удивительно, но факт - [сборные России и Канады]0,1 ранее ни разу не встречались в финалах чемпионатов мира. <...> Последний раз [отечественные хоккеисты]0 разделили с [канадцами]1 "золото" и "серебро" мирового первенства в 1989 году.
Этот пример похож на пример, который уже встречался в тексте. Обратите внимание, что они размечаются по-разному:
Президенты России и Белоруссии [Владимир Путин]0 и [Александр Лукашенко]1 в субботу продолжили встречу в Сочи в "неформальной обстановке". По сведениям белорусского Telegram-канала "Пул Первого", связанного с пресс-службой [Лукашенко]1, [главы государств]0,1 договорились о втором транше госкредита и об открытии новых рейсов "Белавиа" в российские города.
Разница между ними состоит в том, что "Владимир Путин" и "Александр Лукашенко" могут быть самостоятельными упоминаниями, а "сборная России" и "сборная Канады" - нет.
Сочиненные упоминания размечаются по отдельности. Если в тексте встречается упоминание, относящееся ко всем сочиненным упоминаниям, оно размечается как родительское по отношению к сочиненным упоминаниям:
<..> в которых оговаривались бы сроки проведения выборов в самопровозглашенных [ДНР]0 и [ЛНР]1.
<..> Однако лидеры ["народных республик"]0, 1 заявили о планах провести голосование 2 ноября.
Сочиненные упоминания могут размечаться вместе только в случае эллипсиса вершин таких упоминаний (см. эллипсис).
Комитатив размечается аналогично сочинению:
[Фийон]0 с [супругой]1 в рамках расследования предполагаемой растраты около пяти часов беседовали со следователями.
Беседа [супружеской пары]0, 1 со следователями продлилась около пяти часов.
Обратите внимание на конструкцию "мы с Х":
"В Instagram написала Марии Захаровой, потому что по телевизору показали, что якобы с [отцом [Софьи]0]1 была связь у МИДа. Но с [отцом]1 никто не связывался. [Мы]1,2 с [ним]1 24/7, вчера весь день провели в Минске. Нашли [её]0 на Окрестина. [Я]2 спрашивала, что [ей]0 предъявляют. [Мне]2 сказали: Статья 108 УПК РБ", - заключила [мать [россиянки]0]2.
В общем случае организации и участники организаций не размечаются кореферентными:
[Участницы [группы Pussy Riot]0]1,2 провели возле Кремля акцию против полицейского насилия. [Мария Алехина]1 и [Рита Флорес]2, одетые в кокошники и русские народные платья, скотчем с надписью "Осторожно, хрупкое!" примотали к столбу на Манежной площади художника Фархада Исрафилли-Гельмана в форме омоновца. <...>, говорится в заявлении [Pussy Riot]0.
Тем не менее, в некоторых контекстах упоминание участников может отсылать к самой организации:
"Интеллектуальная деградация": [единороссы]0 предложили россиянам полетать в трубе вместе с [депутатом Сидякиным]1 [Партия "Единая Россия"]0 организовала необычный конкурс к Международному дню молодежи: участникам предлагается посоревноваться в сочинении самого лучшего девиза для этого мероприятия. Приз - полет в аэротрубе с [депутатом-единороссом Александром Сидякиным]1, сообщается на официальном сайте [партии]0.
Отличить такие контексты можно так: "единороссы" здесь отсылает не ко всему множеству людей, входящих в партию (не все же они предложили что-то). Еще пример:
[Партия "Единая Россия"]0 проводит [ребрендинг]1, в рамках [которого]1, в частности, рассматривают вопрос о том, чтобы повернуть медведя на логотипе "лицом к избирателям". Об этом рассказал секретарь генсовета [партии]0 Андрей Турчак на пресс-конференции в Новосибирске. "С медведем на самом деле все в порядке. [Мы]0, естественно, ждем [предложения от регионов]2, и [они]2 поступают, в том числе в рамках финальной части конкурса "Лидеры России".
Некоторые упоминания не отсылают ни к чему, а их появление обусловлено фразеологией:
Пранкер, представившись гендиректором Первого канала Константином Эрнстом, предложил [бывшему руководителю Роспотребнадзора]0 стать телеведущим "оздоровительной" передачи о плохих и хороших товарах. [Он]0 в свою очередь выразил готовность обсудить это предложение.
Лишенная свободы [наследница империи Пэрис Хилтон]0 решила, что [она]0 перестанет вести себя "как дура", потому что это "уже не прикольно".
Распознать такие примеры довольно просто - поменять упоминание на другое не получится:
* Он в его очередь выразил готовность обсудить это предложение.
* Она перестанет вести ее "как дура".
Сравните:
Она отказалась вести ее на концерт. Она отказалась вести их на концерт.
Мы не пустили его в свою очередь, и он пошел стоять в другую. Мы не пустили его в эту очередь, и он пошел стоять в другую.
На заметку: обратите внимание, что возвратное местоимение не всегда можно заменить на личное с тем же референтом, но референта поменять можно:
Я не вижу себя.
* Я не вижу меня.
Я не вижу его.
Замена возможна, местоимение не "пустое".
Примеры других семантически пустых упоминаний, которые не следует размечать:
Путин получил то, что хотел.
Там где [Путин]0 и путинизм встречают любое сопротивление - [он]0 отступает.
Скрепы хороши тогда, когда они не перенесены на бумагу и почти потаенны.
Предположим, есть такой искусственный текст:
[Вася]0 встретился с [Петей]1. [Они]0,1 пошли гулять и встретили [Ивана]2. [Все трое]0,1,2 гуляли допоздна.
Очевидно, что "они" будет родительским по отношению к "Васе" и "Пете". С упоминанием "все трое" сложнее. Правила такие:
- Все непосредственные дочерние упоминания должны быть включены: "Иван" размечается ребенком для упоминания "все трое".
- Все промежуточные дочерние упоминания должны быть включены: "они" размечается ребенком для упоминания "все трое".
- Внуков можно не размечать, потому что они уже включены в сущность как часть промежуточного родителя. Т.е, "Васю" и "Петю" можно не делать дочерними для упоминания "все трое", так как уже включено упоминание "они". При этом можно и разметить, ошибкой это не будет и на оценку качества не повлияет.
Итого обязательно должны быть размечены следующие отношения родитель-дети:
"все трое": ["Иван", "они"]
"они": ["Вася", "Петя"]
Допустимо:
"все трое": ["Иван", "они", "Вася", "Петя"]
"они": ["Вася", "Петя"]
Footnotes
-
Здесь в примерах могут быть не размечены нижние индексы []n, это значит, что в примере нет кореферентного упоминания. Соответственно, в реальной разметке мы бы по-прежнему выделили его только при наличии кореферентного упоминания. ↩
-
Относительное местоимение "когда" не размечается, так как моменты и отрезки времени нас пока что не интересуют (см. далее). ↩
-
Нижний индекс здесь отсутствует из-за того, что в тексте нет кореферентного упоминания. Соответственно, в реальной разметке это упоминание не было бы выделено. ↩