Ensuite j’ai un script python qui va récupérer dans les mentions légales le responsable de publication du site qui est 100% du temps le dirigeant d’établissement (seulement pour les sites académiques, les privés ça me les trouve pas)
plusieurs problématiques
ça me laisse avec pas mal de directions “not found” notamment parce que les sites sont pas faits pareils
j’ai beaucoup de noms / prénoms inversés
j’ai pas les Mr / Mme (je peux utiliser genderize API mais bon ça me fait chier de payer mdr)
j’aimerais recomposer les e-mails des directeurs qui sont bien souvent prénom.nom@académie sauuuuuf que y’a énormément d’homonymes et de cas particuliers genre prénoms et noms de famille composés
Je pense que c’est un use case PARFAIT pour un agent AI. Tu lui donnes le website, il va browser le site pour trouver la bonne page, le bon contact, son email etc.
Salut Pierro,
Ce n’est pas avec un simple web scraper que tu vas y arriver. Comme le dit Brice, tu peux utiliser un agent IA ou bien une petite automatisation avec Make (Integromat), à laquelle tu donnes un “footprint”.
Par exemple : site:{{tonsite}} inurl:mention-legale
Ensuite, tu récupères la première URL trouvée et tu l’enregistres dans un Google Sheet.
Une fois que tu as les URL, tu passes une IA ou une regex dessus pour vérifier que :
C’est bien le bon site.
Il s’agit bien des mentions légales.
Si ce n’est pas le cas, tu fais un deuxième test, par exemple : site:{{tonsite}} intext:mention-legale
Et ainsi de suite…
Quand tu obtiens un fichier d’URL propre, l’étape suivante consiste à faire passer OpenAI (ou un autre outil) sur les pages pour extraire les informations dont tu as besoin.