Материалы для мастерской Типологический атлас Дагестана
В репозитории находится пример заполненной таблицы (evidentiality_tense.csv
). Более подробный пример см. в гугл-таблицу Standard of Comparison.
- id - уникальный id каждой строки. Одна строка --- одно наблюдение. Обычно у нас для каждого признака (feature) одно значение (value) на один язык/идиом, если их больше одного, то должна быть отдельная строка (с уникальным id) для каждого значения.
- lang - название языка. Должно соответствовать названию языка в файле
meta.csv
из репозитория датасэта дагестанских сёл (папка: data) - idiom - название идиома. Это может быть название села / диалекта, или, напр. standard, или NA если непонятно
- type - делится на village (если идиом ограничивается одинм селом) и idiom (диалекты, охватывающие больше одного населенного пункта, и литературные языки)
- core - исходно у нас core список языков: 29 языков нахско-дагестанской семьи, 3 тюркских, и 1 индо-европейский (армянский). Каждый из этих языков представляет один датапойнт, который мы потом связываем с селами, где на этом языке говорят
- Пока мы не придумали элегантного решения для того, что в основном экстраполируем данные (от описания языка на все сёла), но в каких-то случаях хотим показать более точную информацию. Поэтому, добавляйте, пожалуйста, дополнительные сведения о диалектах сколько угодно, но помечаете эти строки no в столбце core.
- В каких-то случаях, самая подробная и надежная грамматика какого-то языка описывает определенный, не центральный / одноименный диалект или говор села (напр. для цахурского языка это грамматика на материале говора Мишлеша). В таком случае этот докулект считаем опорным, и наш датапойнт для цахурского будет иметь idiom - Mishlesh, и помечаем эту строку как core: yes, потому что именно эти данные будем использовать для карт
- feature - название признака, напр. Evidentiality as part of the tense system
- value - значения признака, напр. attested / not attested. Их может быть несколько: например, для оформления эталона сравнения есть value: spatial / non-spatial (пространственный падеж / другое), и другой value --- название конкретного падежа, который маркирует эталон сравнения
- source - используемая литература (см. ниже)
- page - релевантная страница в используемой литературе (см. ниже)
- exception - если по какой-то причине хотите исключить какое-то наблюдение из визуализации, помечаете его yes в этом столбце
- comment - сюда можно "изилить душу", как говорит Георгий Алексеевич)
- contributor - имя и фамилия составителя таблицы на английском
Некоторые важные замечания:
- Добавить столбцы никто не запрещает
- Имеет смысл собрать данные как в источниках --- чтобы другому человеку потом было понятно, что относится к чему из литературы --- и рядом создать отдельные столбцы с вашими интерпретациями и упрощенными классификациями для изображения на карте
- Если у вас два наблюдения на один язык/идиом потому что источники противоречат друг другу --- выбирайте источник который вызывает больше доверия, и упоминайте существование расхождения в столбце для комментариев
- Если у вас два наблюдения на один язык/идиом потому что там одновременно представлено два варианта --- выбирайте как exception: no тот вариант, который кажется менее периферийным, или создайте отдельное value для случаев, когда два варианта представлено
- Если ситуация в каком-то языке остается непонятным, не переживайте, так бывает --- просто помечаете этот случай как unclear. Только имейте в виду, что в тексте о признаке нужно объяснить почему этот случай остался неясным
- Если ваш признак не обсуждается в источнике, и вам кажется что это надежный повод считать, что признак отсутствует, то смело помечаете not attested и добавляете ссылку на источник без ссылки на определенные страницы. Уточняйте такие решения в столбце для комментариев
- Источники нужно добавить в файл
bibliography.bib
прямо на гитхабе, нажав карандаш. Какие-то источники/примеры оформления там уже есть. Проверьте, нет ли источника уже в файле - Русские источники транслитерируем научной транслитерацией (даже если у автора имеются публикации на английском где написано по-другому), см. конвенции здесь
- В таблицах пишем только идентификатор (выделен курсивом ниже) Идентификатор оформляется по схеме фамилия + год, если больше двух авторов - только фамилия первого автора + et al + год. (напр. kibriketal1972). Если больше одного источника того же года и того же автора, добавим после года короткое указание на предмет источника, ср. bokarev1949chamalal / bokarev1949avar
@book{forker2013,
author={Forker, Diana},
title={A grammar of {H}inuq},
publisher={Berlin/Boston: De Gruyter Mouton},
year={2013}
}
- Если информация одной строки в таблице основана на нескольких источниках, разделим их ";". Есть отдельный столбец для страниц --- если больше одного источника, страницы разных источников тоже через ";", а разные страницы в одном источнике --- через запятую
Например:
source khalilova2009; khalilova2011 page 221, 234–239; NA
- В случае страниц, NA обозначает, что источник целиком релевантен (напр. источник --- короткая статья и все страницы релевантны)
- Отсутствие данных обозначаем в таблице как NA
- Отсутствие признака обозначаем в таблице как not attested
Как составить короткий текст о признаке, см. сюда
См. пример здесь, и код + инструкции здесь.
Дополнительные tutorials: Lingtypology (нажмите Articles справа на верху) и DT для интерфейса таблиц.
Важно: для бинарных признаков, присутствие --- черным, отсутствие --- белым.