Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Les associations camerounaises peuvent contenir une ville du cameroun mais pas le terme cameroun #65

Open
billmetangmo opened this issue Feb 10, 2023 · 5 comments
Assignees

Comments

@billmetangmo
Copy link
Member

billmetangmo commented Feb 10, 2023

Les options

  • avec machine learning ( créant u prompt engineering ?) mais opeanAI va couer trop cher ( faire autrement)
  • avec la liste de toutes les villes liés au cameroun et en les répérant
  • faire de l'identity POS ( Part of Speech Tagging) et sur le le lieu faire l'encrichissment au pays machine learning
@billmetangmo
Copy link
Member Author

billmetangmo commented Aug 2, 2023

@Trixy20 entity recognition can be easily done using https://github.com/capitalone/DataProfiler, it seems

@billmetangmo billmetangmo moved this from Todo to In Progress in Task Board Sep 24, 2023
@billmetangmo
Copy link
Member Author

@Trixy20 la liste de toutes les villes du Cameroun est là CM

@andressegeo
Copy link
Contributor

andressegeo commented Aug 29, 2024

Bonjour,
Alors, concernant ce sujet, le résultat escompté n'est pas du tout au rdv et c'est très compréhensible.
On a que des faux positifs: 95% pour être plus exact sur l'échantillon testé (fichier: rna.csv)
La liste des villes connus et récupérés est dans le fichier: villes_cameroun.csv.
la précision est de 4,16% ce qui est insignifiante.

Problème Identifié
Le problème principal est que certains noms de villes du Cameroun peuvent avoir d'autres significations en français, ce qui conduit effectivement à ces faux positifs. L'exemple de "Guider" est particulièrement pertinent.
=> "Guider" est une ville au Cameroun.
=> "Guider" est aussi un verbe courant en français.

Voir le resultat du script dans le fichier (run.txt)

Interprétation
La simple présence d'un mot correspondant à un nom de ville n'est pas suffisante pour identifier une association comme camerounaise.

Conclusion
les éléments fournis par le fichier des associations montrent à suffisance qu'elles sont limités dans leur seule forme de donner les informations permettant de dénicher aisément celles liées au Cameroun. Il est à ce stade très couteux d'aller au bout de ce sujet si l'on veut le faire vraiment.

  1. Ca demande beaucoup de temps de vérifier après l'exécution du script, une par une, chaque ligne pour confirmer si l'association retournée est belle et bien camerounaise.
  2. une autre solution serait d'envisager d'utiliser des techniques d'apprentissage automatique pour classer les associations avec plus de précision.

cm.csv
rna.csv
run.txt

@billmetangmo
Copy link
Member Author

Awesome work @andressegeo .

@billmetangmo
Copy link
Member Author

billmetangmo commented Aug 30, 2024

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: In Progress
Development

No branches or pull requests

4 participants