лабораторія української
  золотий морфосинтаксовий стандарт (English readme)

Корпус розмічено повністю руками у декілька шарів: поділ на документи, абзаци, речення і токени; повна морфологія; синтакса залежностей. Містить 140 тисяч токенів, 120 тисяч з них мають синтаксовий шар. Призначений для навчання автоматичних аналізаторів та перевірки правилових. Також цінний як власне корпус з найвищою точністю. Тексти звідусіль: статті, новини, дописи, підручники, листування, казки, худпроза — і сучасні, і класичні. Українська документація ще готується, тому деякі посилання ведуть на сторінки англійською.

стягнути

остання версія

Формат — CoNLL-U. Розбито на навчальну, перевіркову і випробувальну вибірки, врівноважені за стилем і складністю.

пошук

статистика

розмічення

Морфологічно корпус розмічено за схемою 2+1: кожен абзац оброблюється двічі, двома різними людьми. Усі місця, де їхні позначки не збігаються, повертаються на перегляд і, якщо конфлікти лишаються, їх розмітає суперрозмітник.

Потім конвеєр повертає на синтаксу, де для кожної пари слів голова+залежник протягується стрілка, підписана типом зв’язку між ними. Наприклад, nsubj (nominal subject) — це підмет. Добре починати вчити синт’розмітку з робочої документації.

(Насправді натреновані анотатори користуються клавіатурними скороченнями)

Тут недієслівна предикація я — свята, де була є зв’язкою, обставинний додаток (коли?) на свята з прийменником, також звертання, вигук, і розділові, що під’єднуються за своїм принципом. Зауважте омонімію зі святами і святою — тепер аналізатор навчиться розрізняти схожі випадки автоматично.

Далі протягнуті дуги перевіряє інший анотатор.

Зараз, коли ми на морфологію наклали синтаксу, є нагода вичесати з розмітки решту помилок, перевіривши узгодження. Для цього запрограмовано більше двохсот правил, що генерують сторінку з можливо-помилками.

Наостанок десять разів робимо таке: навчаємо аналізатор на 90% текстів, і вже ним навченим розмічуємо решту автоматично. Місця, де авторозбір помилився, часто є помилками в золоті, статистичними „півниками“.

розроблювання

Діється на Гітхабі. Питання можна поставити на форумі.

ліцензія

CC BY-NC-SA 4.0. Золотий корпус вільний до некомерційного використання.