інститут української
  морфосинтаксовий аналізатор     





Це модель UDPipe навчена на золотому стандарті.

Скоро стане доступною точніша глибша модель Стенфордського парсера. Вона на третину зменшує кількість синтаксичних помилок і дає точніше морфо, ефективно передбачаючи значення слів, що їх немає в навчальному корпусі.

точність

ЧМ ........... 97.5%
морф. риси ... 91.6%
синтзв’язки .. 81.7%

Можна побачити які саме помилки робить аналізатор у порівняннях золото-передбачене (може довго відкриватися): морфо. Якщо на ваших текстах аналізатор робить помилок більше від заявленого, напишіть.

API

Надається стандартний API UDPipe’а (замініть http://.../api/ на https://api.mova.institute/udpipe/), плюс з додатковим параметром json, що ним можна вимкнути загортування в JSON (json=false).
Вхід має бути в UTF-8 і щонайбільше 1МБ / запит. Вихід в UTF-8.

Щоби розібрати файл зі сирим текстом на Лінуксі чи Маку, запустіть:
  curl -F json=false -F data='@input-plaintext.txt' -F tokenizer= -F tagger= -F parser= https://api.mova.institute/udpipe/process > out.conllu.txt

Типово робиться повний розбір (поділ на слова, речення; морфо і синт. аналіз). Якщо вам не потрібна синтакса, то щоб було швидше, можна питати тільки токенізатор і морфологію. Ось офіційні доки як це зробити.

стягнути модель

20180506.uk.mova-institute.udpipe (1,6ГБ)
Для більшої точності використовуйте версію UDPipe’а на github.com/mova-institute/udpipe.