You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Привет, есть предложение считать все символы emoji за отдельные токены.
Сейчас библиотека склеивает их с нормальными словами:
Например, для такого текста:
✅Сдается комната. стиралка,wifi... Сдается без комиссии.Соседи семья без детей.Можно с животными. Вся необходимая инфраструктура в пешей доступности. М. Восстания Ул.Гончарная 8000+счетчики💰 8-906-271-28-93 📲 Все фото на стене🌅
Согласен, просто в тестовых датасетах особо эмоджи не было. Также нужно вообще поаккуратнее работать с пунктуацией. Например, на сколько я помню, "..." или "!?" склеятся, это нормально, а "yahoo!," нужно разделять.
То есть наверное правило должно быть такое, что по-умолчанию пунктуацию (в том числе и эмоджи) нужно отдельно кроме набора исключений "...", "?!" и другие. Нужно посмотреть как поменяется качество на тестах.
Привет, есть предложение считать все символы emoji за отдельные токены.
Сейчас библиотека склеивает их с нормальными словами:
Например, для такого текста:
Результат будет следующий:
The text was updated successfully, but these errors were encountered: