Scraper toutes les pages URL d'un site web à partir de son URL

Hello à toutes et tous :slight_smile:

C’est encore moi avec une petite problématique un peu bizarre. :smile:

Connaissez-vous un tool qui permette de scraper toutes les url d’un site web en fournissant en input l’url de base que l’on a ?

Exemple : si je fournis adidas.com, j’aimerais qu’il me retourne toutes les pages donc adidas.com/chaussures, adidas.com/pantalons...ect

Mon cas d’usage c’est pour un client qui aide les ETI à diffuser leurs communiqués de presse. Et je me suis dit qu’à partir du moment où j’arrivais à identifier une URL du style adidas.com/medias ou adidas.com/communique-de-presse, ça fait un super déclencheur. :slight_smile:

Merci d’avance !

2 Likes

Edit : Je n’avais pas bien compris ta demande :sweat_smile:

Hello @nathanguillaumin,

Souvent y a un sitemap (c’est long à charger y a bcp d’URLs)

Ou t’as ce genre d’outils qui fait un peu peur comme Xenu (que j’ai connu grâce à Camille du forum Growthhacking)

Hey @nathanguillaumin tu aurais besoin d’un outil qui le fait en masse ou sur une petite quantité?
La première chose à laquelle je pense c’est de checker le sitemap du site web

Oui il me faudrait un tool qui le fait en masse. Compliqué avec le sitemap parce que du coup c’est du manuel

Si c’est en masse et une tache récurrente j’irais checker du coté de fiverr, pour 200-300 dollars tu as un script personnalisé

Il me faudrait un outil (je suis sûr qu’il y en a qui existent). Pas envie d’embaucher quelqu’un et ce sera probablement sur 500 à 1000 sites par mois, c’est pas non plus énorme.

Peut être screaming frog?

site:adidas.com inurl:presse

2 Likes

Hello Nathan,

Tu as essayé avec Clay + IA ?

Non @Florian_Rosotte l’outil permet ça ?

De mémoire il y a des plugins ChatGpt qui font ça.
J’en avais testé Il y a quelques mois.

Après je suis à peu près sur qu’avec Bardeen ou Automa tu dois pouvoir faire ça sans trop de difficulté.

Je t’ai fait un loom pour t’expliquer comment faire avec Clay :slight_smile:

10 Likes

De mon côté, impossible de lire ta vidéo @alexis

Update : C’est good. Top ton petit tuto :gem:

2 Likes

Ah bah voilà @alexis t’as donné exactement ce que j’avais en tête, congrats !

1 Like

Génial Alexis. Merci beaucoup pour ta vidéo tuto et ton aide.

Je vais essayer et je te dirai !

Pour le « matches this keyword », je peux ajouter un OR et ajouter d’autres mots-clés j’imagine ?

Avec plaisir ! Oui tu peux, il faut juste jouer un peu avec le prompt :slight_smile:

1 Like

Salut Alexis, impossible de lancer la vidéo de mon côté !

5 messages ont été fusionnés à un sujet existant : Scrap les entreprises qui ont un site web fait par solocal et les enrichirs

J’ai uploadé la vidéo en dur, ça devrait fonctionner :wink:

1 Like

@nathanguillaumin : la solution de @alexis sur Clay est canon ! Tu as aussi une autre possibilité notamment si tu sais gérer API + Make :

Tu peux aussi utiliser SerpAPI pour récupérer facilement tous les résultats de recherche sur Google, à partir d’une requête booléenne optimisée incluant : « {nom du client} media » OR « {nom du client} communique de presse »

L’outil est ultra puissant pour récupérer n’importe quel type de contenu sur Google (search, map, actualités local, ads, etc), et assez peu cher

1 Like