This repository contains all the files related to my Master's Thesis (TFM). Here you will find the necessary documentation, as well as code files and Power BI document used in my research.
The Data used for this project has been extracted form Kaggle: https://www.kaggle.com/datasets/edumucelli/spotifys-worldwide-daily-song-ranking
Before using the files included in this repository, it is recommended to have the following tools installed:
- MySQL: It is used as a database management system for storing the data used in the TFM.
- Anaconda Navigator or Jupyter Notebook: These development platforms provide an interactive programming environment and allow you to run the Python code included in this repository.
- Machine Learning libraries: Make sure to have the following Python libraries installed: pandas, numpy, scikit-learn, matplotlib, seaborn, and any other specific library mentioned in the code files.
- Power BI: In the case you want to see diferent types of graphs related to this TFM with a good looking and careful design.
- TFM_Memoria.pdf: This PDF document contains a fragment of my thesis that includes different sections such as indices, summary, and abstract. For more information about my research, please feel free to contact me via LinkedIn or email.
- /Power BI/PowerBi.pbix: This folder contains the PowerBi.pbix file that can be opened with Power BI to visualize a series of interactive charts related to the data used in my TFM. If you want to explore the visualizations, make sure to have Power BI installed on your system.
- Limpieza y tratado de los datos.ipynb: This Python notebook is the starting point to execute the code related to data cleaning and preprocessing used in my TFM. It is recommended to run this file before using any other code in the repository.
- /Modelos supervisados/Modelos supervisados.ipynb: This folder contains the Modelos supervisados.ipynb file, which includes the code related to supervised models used in my research. It includes linear regression, multiple linear regression, multiple polynomial regression with various degrees, and regularization techniques like Lasso and Ridge. It also includes testing and evaluation of the models.
- /Modelos NO supervisados/Modelos no supervisados.ipynb: This folder contains the Modelos no supervisados.ipynb file, which includes the code related to the unsupervised clustering model used in my research. It includes different tests and optimizations of the model to achieve optimal results.
In case you want to run our code locally, it is necessary to have all the recommended tools installed beforehand and follow a specific order.The execution order requires that the first document to be executed must be "Limpieza y tratado de los datos.ipynb" (Data Cleaning and Processing.ipynb) as it handles the necessary adjustments on the data for our supervised and unsupervised models documents to work correctly.
If you would like to get more information about my TFM or if you have any questions, please feel free to contact me through the following channels:
- LinkedIn: Sergio Martínez https://www.linkedin.com/in/sergio-mart%C3%ADnez-a94255269/
- Email: [email protected]
Thank you for your interest in my TFM!
Este repositorio contiene los archivos relacionados con mi Trabajo Final de Máster (TFM) en Data Science. Aquí encontrarás la documentación necesaria, así como los archivos de código y visualizaciones utilizados en mi investigación.
Los datos usados para este poryecto han sido extraidos en kaggle: https://www.kaggle.com/datasets/edumucelli/spotifys-worldwide-daily-song-ranking
Antes de utilizar los archivos incluidos en este repositorio, se recomienda tener instaladas las siguientes herramientas:
- MySQL: Se utiliza como sistema de gestión de bases de datos para el almacenamiento de los datos utilizados en el TFM.
- Anaconda Navigator o Jupyter Notebook: Estas plataformas de desarrollo proporcionan un entorno de programación interactivo y permiten ejecutar el código Python incluido en este repositorio.
- Librerías de machine learning: Asegúrate de tener instaladas las siguientes librerías de Python: pandas, numpy, scikit-learn, matplotlib, y cualquier otra librería específica mencionada en los archivos de código.
- Power BI: En el caso de querer visualizar nuestro archivo .pbi el cual contiene una serie de gráficas de gran utilidad junto con un diseño cuidado y estético.
El repositorio se organiza de la siguiente manera:
-
TFM_Memoria.pdf: Este documento en formato PDF contiene un fragmento de mi memoria de TFM que incluye los diferentes índices, resumen y abstract. Para obtener más información sobre mi investigación, te invito a contactarme a través de mi perfil de LinkedIn o mi correo electrónico.
-
/Power BI/PowerBi.pbix: En esta carpeta se encuentra el archivo .pbix que se puede abrir con Power BI para visualizar una serie de gráficas interactivas relacionadas con los datos utilizados en mi TFM. Si deseas explorar las visualizaciones, asegúrate de tener Power BI instalado en tu sistema.
-
Limpieza y tratado de los datos.ipynb: Este documento en Python es el punto de partida para ejecutar el código relacionado con la limpieza y tratamiento de los datos utilizados en mi TFM. Se recomienda ejecutar este archivo antes de utilizar cualquier otro código en el repositorio.
-
/Modelos supervisados/Modelos supervisados.ipynb: Esta carpeta contiene el archivo "Modelos supervisados.ipynb", que contiene el código relacionado con los modelos supervisados utilizados en mi investigación. Incluye modelos de regresión lineal, regresión lineal múltiple, regresión polinomial múltiple con varios grados y técnicas de regularización como Lasso y Ridge. También se incluyen pruebas y evaluaciones de los modelos.
-
/Modelos NO supervisados/Modelos no supervisados.ipynb: Esta carpeta contiene el archivo "Modelos no supervisados.ipynb", que contiene el código relacionado con el modelo no supervisado de clustering utilizado en mi investigación. Se incluyen diferentes pruebas y optimizaciones del modelo para obtener resultados óptimos.
En el caso de querer ejecutar nuestro código en local será necesario tener instaladas de forma previa todas las herramientas recomendadas con anterioridad y respetar un orden establecido. Este orden tan solo requiere de que el primer documento ejecutado sea "Limpieza y tratado de los datos.ipynb" ya que se encarga de hacer los ajustes necesarios sobre los datos para que nuestros documentos de modelos supervisados y no supervisados funcionen de forma correcta.
Si deseas obtener más información sobre mi TFM o tienes alguna pregunta, no dudes en contactarme a través de los siguientes medios:
- LinkedIn: Sergio Martínez https://www.linkedin.com/in/sergio-mart%C3%ADnez-a94255269/
- Correo electrónico: [email protected]
¡Gracias por tu interés en mi TFM!