Scraping prof collège / lycée

Hello les growth, je vais commencer une nouvelle mission ou j’aurais besoin de cibler les profs de collège / lycée. Est ce que quelqu’un a déjà adressé cette cible svp ?

Si oui, je suis chaud d’avoir des infos sur comment vous avez fait pr créer vos bases de données

Merci d’avance :slight_smile:

Oui j’ai un projet qui ressemble.
À ma grande surprise, j’ai découvert qu’il y avait beaucoup de profs sur Linkedin !
Ne t’attends pas un niveau d’enchissement mail élevé.

1 Like

Yess effectivement j’ai vu qu’il y en avait pas mal sur LinkedIn je vais partir de là mais si certains ont d’autres méthodes pour récupérer plus d’e-mails je suis preneur :slight_smile:

Hello @MartinThm,

Pour retrouver les emails des chefs d’établissements des collèges et lycées publics français, il faut que tu partes de la structure suivante :

{{firstname}}.{{lastname}}@ac-{{academie_location}}.fr

Par exemple : jean.durand@ac-toulouse.fr

Tu peux aussi faire du Google Dorking avec des requêtes du type :

filetype:xlsx "@ac-{{academie_location}}.fr ou filetype:pdf "@ac-{{academie_location}}.fr

filetype:(xls OR xlsx OR ods OR csv) site:.fr (“chef d’établissement” OR “proviseur” OR “principal”) “@ac-paris.fr” (collège OR lycée)

Ça te permettra de tomber sur des fichiers comme celui-ci : AS_filles-2013-2014 - Google Sheets ou encore Annuaire des Établissements

Il y a un peu de taff mais ça me semble être la meilleure voie de travail :wink:

2 Likes

Excellent ça ! Merci beaucoup Guillaume, je vais creuser sur le sujet mais je pense qu’avec ta méthode + LinkedIn j’aurais de quoi faire :slight_smile:

1 Like

@MartinThm,
Tu peux aussi checker cet annuaire issu du Ministère de l’Éducation Nationale (Open Data) qui devrait t’aider à structurer ta recherche : fr-en-annuaire-education - Google Sheets

1 Like

A l’époque quand j’ai cherché sur l’annuaire issu du Ministère de l’Éducation Nationale, il n’y avait pas les profs.
Aujourd’hui oui ?

Pour les mails c’est également délicat, car la ville annoncé sur Linkedin n’est pas toujours celle de l’academie dans laquelle ils opèrent.

Bref, les profs ce n’était pas évident à part Linkedin.
Si aujourd’hui tu as un annuaire c’est cool.

Tiens nous au courant ici de tes avancements.

Il est pépite ton fichier Guillaume merci beaucoup !!

@Iker Yess avec plaisir, je commence la mission dans 1 semaine donc je vous tiendrais au courant de ce que ça donne

Merci pour votre aide en tout cas :slight_smile:

1 Like

Il s’agit de faire des regroupements :

  1. Identifier les patterns d’email (dans le cas présent c’est à 95% firstname.lastname@ac-{{academie}}.fr

(Pour les emails plus génériques liés aux directions de chaque établissement ils sont dispo dans l’annuaire que j’ai partagé à Martin).

  1. Identifier via Linkedin + Google Dorking Search les noms des directeurs des collèges et Lycées.

  2. Reconstituer les emails nominatifs pro à partir des firstname+lastname & domaine (@ac-{{academie}}.fr

Bref, un peu de taff mais ça en vaut la peine pour ce use case ,-)

2 Likes

Oui clairement ça en vaut la peine ahah j’ai de quoi m’amuser !

Après je me pose des questions sur est-ce que ces emails sont vraiment utilisés ?

Parce que souvent les profs utilisent leurs emails perso faudra que je fasse des tests sur un petit batch pour voir si c’est pertinent

Hello, voici mes stats sur les profs de maths, profs de technos (college / lycée) et directeurs d’établissement :

et ça c’est full via Linkedin

honnêtement j’ai assez peu d’emails enrichis, tous les e-mails sont “patternisables” même si j’ai quelques soucis comme dans mon dernier post du forum :wink:

mais sur linkedin ça réponds bien - avec de la recherche booléenne ou dans le nom de l’entreprise tu mets “lycée” ou “collège” et tu en as pas mal - si dans l’entreprise tu mets “éducation nationale” (sans choisir l’entreprise, juste en appuyant sur entrée) alors là tu en as énormément - moi j’ai fait le choix de sortir de mes campagnes toutes les personnes qui avaient moins de 10 relations Linkedin et / ou qui sont au même poste depuis 20 ans et +, c’est du déchet et ça te tue les stats pour rien

Mais sinon c’est une cible, une fois qu’elle est trouvée, qui réponds bien car pas énormément sollicitée je pense - si tu trouves une base email en revanche il faut que ta délivrabilité soit niiiickel parce que l’éducation nationale (et d’autres services j’imagine) utilisent notamment https://www.fortinet.com/fr pour bloquer les spammers et autres liens indésirables donc assez chiant d’arriver en inbox si tu n’as pas une excellente authorité

1 Like

Je veux bien te demander de l’aide sur ça alors : Nettoyer la donnée first_name / last_name & améliorer un workflow de scraping

1 Like

Hello @Pierro_Marketo,

J’ai juste partagé rapidement quelques reco à Martin mais je bosse pas du tout sur ce use case en ce moment.

Je t’avoue être déjà sous l’eau avec mes missions.

En revanche tu devrais peut-être voir avec Martin qui est à fond dessus :wink:

1 Like

Merci beaucoup pour le partage de tes stats et de toutes ces infos ! Est ce que tu as de la dispo lundi pour se faire un call ?

Je pense qu’on peut s’aider mutuellement :slight_smile: