У паралельних корпусах кожне речення первотвору вирівняне до відповідного речення (чи речень) його перекладу. Подаємо корпуси шістьох мов, вирівняні до української. Тексти з обох боків розмічені автоматично, за спільною системою — Universal Dependencies (на те й universal). Запит [mood="imp"]
шукає дієслова наказового способу і в українській, і у французькій.
токенів на чужомовному боці | |
польська | ~4 млн |
англійська | 1.5 млн |
французька | 0.5 млн |
німецька | 190 тис |
іспанська | 65 тис |
португальська | 16 тис |
▍ вирівнювання
Після автоматичного поділу текстів на речення і їх вирівнювання лишається багато помилок. Хтось, хто знає обидві мови, має вичитати кожне вирівнювання. Де треба — склеїти речення, де треба — розділити. Ми використовуємо спеціальну програму Intertext, розроблену Інситутом чеського національного корпусу.
▍ заклик
Створюйте паралельні корпуси для ваших досліджень на нашій інфраструктурі — напишіть на форум чи на org@mova.institute.
▍ ліцензія
Вирівнювання вільні до некомерційного використання під CC BY-NC-SA 4.0. Самі тексти належать їхнім власникам.