Hello l’équipe,
En ce moment je travaille avec de la donnée de collèges et lycées pour du multi-canal courrier + email
Je pense perdre pas mal de temps donc je m’en remets aux pros de la flemmardise de ce forum pour me donner un coup de main :
Je scrap avec Webscraper cette BDD : https://www.education.gouv.fr/annuaire (avec à chaque fois des filtres)
Ensuite j’ai un script python qui va récupérer dans les mentions légales le responsable de publication du site qui est 100% du temps le dirigeant d’établissement (seulement pour les sites académiques, les privés ça me les trouve pas)
plusieurs problématiques
- ça me laisse avec pas mal de directions “not found” notamment parce que les sites sont pas faits pareils
- j’ai beaucoup de noms / prénoms inversés
- j’ai pas les Mr / Mme (je peux utiliser genderize API mais bon ça me fait chier de payer mdr)
j’aimerais recomposer les e-mails des directeurs qui sont bien souvent prénom.nom@académie sauuuuuf que y’a énormément d’homonymes et de cas particuliers genre prénoms et noms de famille composés
Voilà voilà, à vos idées qui fusent @Brice