Nettoyer la donnée first_name / last_name & améliorer un workflow de scraping

Hello l’équipe,

En ce moment je travaille avec de la donnée de collèges et lycées pour du multi-canal courrier + email

Je pense perdre pas mal de temps donc je m’en remets aux pros de la flemmardise de ce forum pour me donner un coup de main :

Je scrap avec Webscraper cette BDD : https://www.education.gouv.fr/annuaire (avec à chaque fois des filtres)

Ensuite j’ai un script python qui va récupérer dans les mentions légales le responsable de publication du site qui est 100% du temps le dirigeant d’établissement (seulement pour les sites académiques, les privés ça me les trouve pas)

plusieurs problématiques

  • ça me laisse avec pas mal de directions “not found” notamment parce que les sites sont pas faits pareils
  • j’ai beaucoup de noms / prénoms inversés
  • j’ai pas les Mr / Mme (je peux utiliser genderize API mais bon ça me fait chier de payer mdr)
    j’aimerais recomposer les e-mails des directeurs qui sont bien souvent prénom.nom@académie sauuuuuf que y’a énormément d’homonymes et de cas particuliers genre prénoms et noms de famille composés

Voilà voilà, à vos idées qui fusent :grin: @Brice

1 Like

Je pense que c’est un use case PARFAIT pour un agent AI. Tu lui donnes le website, il va browser le site pour trouver la bonne page, le bon contact, son email etc.

tu devrais essayer freckle.io ou promptloop !

1 Like

Salut Pierro,
Ce n’est pas avec un simple web scraper que tu vas y arriver. Comme le dit Brice, tu peux utiliser un agent IA ou bien une petite automatisation avec Make (Integromat), à laquelle tu donnes un “footprint”.

Par exemple :
site:{{tonsite}} inurl:mention-legale

Ensuite, tu récupères la première URL trouvée et tu l’enregistres dans un Google Sheet.
Une fois que tu as les URL, tu passes une IA ou une regex dessus pour vérifier que :

  • C’est bien le bon site.
  • Il s’agit bien des mentions légales.

Si ce n’est pas le cas, tu fais un deuxième test, par exemple :
site:{{tonsite}} intext:mention-legale

Et ainsi de suite…

Quand tu obtiens un fichier d’URL propre, l’étape suivante consiste à faire passer OpenAI (ou un autre outil) sur les pages pour extraire les informations dont tu as besoin.

1 Like