лабораторія української
  паралельні корпуси

У паралельних корпусах кожне речення первотвору вирівняне до відповідного речення (чи речень) його перекладу. Подаємо корпуси шістьох мов, вирівняні до української. Тексти з обох боків розмічені автоматично, за спільною системою — Universal Dependencies (на те й universal). Запит [mood="imp"] шукає дієслова наказового способу і в українській, і у французькій.


токенів на чужомовному боці
польська~4 млн
англійська1.5 млн
французька0.5 млн
німецька190 тис
іспанська65 тис
португальська16 тис

вирівнювання

Після автоматичного поділу текстів на речення і їх вирівнювання лишається багато помилок. Хтось, хто знає обидві мови, має вичитати кожне вирівнювання. Де треба — склеїти речення, де треба — розділити. Ми використовуємо спеціальну програму Intertext, розроблену Інситутом чеського національного корпусу.

заклик

Створюйте паралельні корпуси для ваших досліджень на нашій інфраструктурі — напишіть на форум чи на org@mova.institute.

ліцензія

Вирівнювання вільні до некомерційного використання під CC BY-NC-SA 4.0. Самі тексти належать їхнім власникам.