PROИТ: [DS NLP] Как создать синтаксически размеченный корпус языка? (Natural Language Processing)

Вопрос от коллег: стоит задача создать синтаксически размеченный корпус языка (русского и потом по аналогии другого непопулярного языка). Пока что были пробы работать с библиотекой spaCy и визуализацией зависимостей в jupyter notebook через displacy, а с помощью каких инструментов можно реализовать корпус вне гугл колаба и сложно ли делать визуализацию зависимостей?

Тема: Обработка естественного языка (Natural Language Processing, NLP, Data Science)

Ответы от коллег:

1) Посмотрите список инструментов здесь: https://universaldependencies.org/tools.html#brat-rapid-annotation-tool

Brat наиболее известный.

2) brat, да. Больше ничего нет, но визуализация там не особо хорошая. Если зависимостей много и они далёкие, то выглядит странно. Размечать куда проще, чем потом это проверять. Но, кстати, синтаксически размеченные корпуса русского языка уже есть, и они весьма хорошие.

3) displacy работает и вне колаба, пример кода:

doc = nlp(text)

displacy.serve(doc, style="dep")

Источник: ODS slack

Если Вам понравилась статья, пожалуйста, поставьте лайк, сделайте репост или оставьте комментарий. Если у Вас есть какие-либо замечания, также пишите комментарии.

PROИТ

[DS NLP] Как создать синтаксически размеченный корпус языка? (Natural Language Processing)

Комментариев нет :

Отправить комментарий