Se incluye el grupo de datasets generados utilizados en la tesis "Análisis de los métodos de recolección de textos sarcásticos".
Por políticas de privacidad de Twitter, solo se proveen los tweet IDs.
División | Muestras negativas (no sarcásticos) | Muestras positivas (sarcásticos) | Total |
---|---|---|---|
Entrenamiento (80%) | 2710 | 2710 | 5420 |
Validación (20%) | 677 | 677 | 1354 |
Total (100%) | 3387 | 3387 | 6774 |
Para generar los datasets se utilizó el método de Supervisión Distante. Se agradece a Boaz Shmueli y su equipo por el método.