Це модель UDPipe навчена на золотому стандарті.
Скоро стане доступною точніша глибша модель Стенфордського парсера. Вона на третину зменшує кількість синтаксичних помилок і дає точніше морфо, ефективно передбачаючи значення слів, що їх немає в навчальному корпусі.
▍ точність
ЧМ ........... 97.5% морф. риси ... 91.6% синтзв’язки .. 81.7%
Можна побачити які саме помилки робить аналізатор у порівняннях золото-передбачене (може довго відкриватися): морфо. Якщо на ваших текстах аналізатор робить помилок більше від заявленого, напишіть.
▍ API
Надається стандартний API UDPipe’а (замініть http://.../api/
на https://api.mova.institute/udpipe/
), плюс з додатковим параметром json
, що ним можна вимкнути загортування в JSON (json=false
).
Вхід має бути в UTF-8 і щонайбільше 1МБ / запит. Вихід в UTF-8.
Щоби розібрати файл зі сирим текстом на Лінуксі чи Маку, запустіть:
curl -F json=false -F data='@input-plaintext.txt' -F tokenizer= -F tagger= -F parser= https://api.mova.institute/udpipe/process > out.conllu.txt
Типово робиться повний розбір (поділ на слова, речення; морфо і синт. аналіз). Якщо вам не потрібна синтакса, то щоб було швидше, можна питати тільки токенізатор і морфологію. Ось офіційні доки як це зробити.
▍ стягнути модель
20180506.uk.mova-institute.udpipe (1,6ГБ)
Для більшої точності використовуйте версію UDPipe’а на github.com/mova-institute/udpipe.