Comment scrapper un annuaire PDF

Clement_Menneteau · October 29, 2024, 10:14am

Hello à tous,

j’aurai besoin de votre aide concernant ce document :
CARENEWS_RSE_PRO25_BD2-compression.pdf (7.5 MB)

Dans ce document il y a un annuaire de plus de 100 pages qui répertorient les différentes solutions RSE.
J’aimerai dans un premier temps extraire le nom de la solution, son site web et le mail donné (souvent générique).

Est-ce que vous avez des idées svp ?

MartinThm · October 29, 2024, 2:27pm

Hello Clément,

J’ai donné le fichier à ChatGPT en lui demandant de m’extraire le nom des solutions RSE, site web et mail et il m’a sorti ça , je te l’ai mis sur un GSheet : Fichier solution RSE - Google Sheets

Il y en a que 12 donc je sais pas si c’est complet ou si il est censé y en avoir plus mais si c’est le cas tu dois pouvoir faire qqch avec ChatGPT

Clement_Menneteau · October 29, 2024, 3:36pm

Hello Martin,
Merci pour ton aide.
J’avais déjà essayé avec Chat GPT mais pareil il ne me ressort seulement une dizaine de solutions de l’annuaire alors qu’il y’en a bien au moins 150…

MartinThm · October 29, 2024, 3:44pm

Ah mince… Tu as essayé avec une autre IA comme Claude pour voir ce que ça donne ?

Tom_Brun · October 30, 2024, 11:09am

Essaye un outil d’extraction de texte, puis donne le à chatgpt avec un nouveau prompt

Clement_Menneteau · October 31, 2024, 9:35am

Ouais mais le doc est trop volumineux pour la plupart des IA

Clement_Menneteau · October 31, 2024, 9:35am

Bonne idée, est-ce que tu as des outils d’extraction de texte ?

Tom_Brun · October 31, 2024, 10:33am

Tu as des outils PDF to Word pour pouvoir ensuite copier coller