Comment scrapper un annuaire PDF

Hello à tous,

j’aurai besoin de votre aide concernant ce document :
CARENEWS_RSE_PRO25_BD2-compression.pdf (7.5 MB)

Dans ce document il y a un annuaire de plus de 100 pages qui répertorient les différentes solutions RSE.
J’aimerai dans un premier temps extraire le nom de la solution, son site web et le mail donné (souvent générique).

Est-ce que vous avez des idées svp ?

Hello Clément,

J’ai donné le fichier à ChatGPT en lui demandant de m’extraire le nom des solutions RSE, site web et mail et il m’a sorti ça , je te l’ai mis sur un GSheet : Fichier solution RSE - Google Sheets

Il y en a que 12 donc je sais pas si c’est complet ou si il est censé y en avoir plus mais si c’est le cas tu dois pouvoir faire qqch avec ChatGPT

Hello Martin,
Merci pour ton aide.
J’avais déjà essayé avec Chat GPT mais pareil il ne me ressort seulement une dizaine de solutions de l’annuaire alors qu’il y’en a bien au moins 150…

Ah mince… Tu as essayé avec une autre IA comme Claude pour voir ce que ça donne ?

Essaye un outil d’extraction de texte, puis donne le à chatgpt avec un nouveau prompt

Ouais mais le doc est trop volumineux pour la plupart des IA

1 Like

Bonne idée, est-ce que tu as des outils d’extraction de texte ?

1 Like

Tu as des outils PDF to Word pour pouvoir ensuite copier coller