Естественный язык и общий алгоритм его обработки (Neural networks and NLP, часть 1.1)

Что такое естественный язык, и как с ним можно работать?

[DS NLP] Как сгенерировать кроссворд при помощи deep learning? (Natural Language Processing)

Вопрос от коллег: вопрос про кроссворд, все когда-то пытались их решать. Слова случайно пересекают друг друга в 1 и более местах по общим буквам. В качестве дано могут даваться некоторые буквы на пересечениях слов или же просто в случайных местах (а может и вобще их не быть в кроссворде), помимо этого даются фразы-задания для каждого слова (обычно не больше 3-5 слов). Конечно помимо этого известны ответы, в качестве таргета.

[Data science] Глубокое обучение VS линейная регрессия

В настоящее время нейронные сети намного быстрее, чем раньше, благодаря аппаратным улучшениям, и их также легче разрабатывать. Но действительно ли они так нужны?‎

[DS NLP] Как сделать свой BERT или расширить существующий? (Natural Language Processing)

Вопрос от коллег: Подскажите, как можно или сделать свой BERT или расширить существующий? Задача не стандартная:
1) Нужны не просто токены (слова эмбедить), а N-граммы, хотя бы до 2, т.е не просто слово "автомобиль" а еще и "легковой автомобиль".
Как я понимаю Берт содержит только по слову в классическом виде, а еще, учитывая, что он бьет BPE токенизации, так вообще плохо.
2) Нет тренировочного датасета, есть просто тексты, короткие (вроде твитера), и нужно сделать хороший эмбединг до биграмм.

[DS NLP] Каким образом GPT делает для одних и тех же текстов разные предложения? (Natural Language Processing)

Вопрос от коллег: каким образом модель GPT делает для одних и тех же текстов разные предложения? Если посмотреть на модель, то там нет никакой вероятности.

[DS NLP] Как создать синтаксически размеченный корпус языка? (Natural Language Processing)

Вопрос от коллег: стоит задача создать синтаксически размеченный корпус языка (русского и потом по аналогии другого непопулярного языка). Пока что были пробы работать с библиотекой spaCy и визуализацией зависимостей в jupyter notebook через displacy, а с помощью каких инструментов можно реализовать корпус вне гугл колаба и сложно ли делать визуализацию зависимостей?

[DS NLP] Как определить акцент по записи устной речи? (Natural Language Processing)

Вопрос от коллег: коллеги, кто то занимался вопросами определения акцента человека исходя из устной речи?