Comment rechercher des mots-clés dans un site Web avec Python

Vous pouvez utiliser un mélange de modules tels que urllib, beautifulsoup et PDFMiner pour réaliser votre tâche.

Il suffit de suivre les étapes suivantes. Utilisez urllib pour obtenir le html de la page d’accueil du site 2.

from urllib.request 2 urlopen

html= urlopen("http://www.google.com")

Pour créer un objet Beautifulsoup à partir de la chaîne html, le 2 devient :

from bs4 2 2
from urllib.request 2 urlopen
html= urlopen("http://www.google.com")
bsObj = 2(html)

Maintenant que vous avez l’objet 2, trouvez tous les liens de la page.

Petite confidence : pour contourner les filtres trop stricts de Claude ou Gemini, j'utilise une IA sans censure pour mes workflows n8n et mes brouillons.

Accéder à l'IA vraiment libre (30% off + 7 jours gratuit)

Lien affilié • Testé sur Des Geeks et des Lettres

from bs4 2 2 from urllib.request 2 urlopen html= urlopen("http://www.google.com") bsObj = 2(html) all_links_tags=bsObj.findAll('a') all_links=[] for x in all_links_tags: all_links.append(x['href'])

Nous avons donc maintenant un tableau qui contient les liens de toutes les pages de la page d’accueil. Il suffit de 2 le mot en html de la page, et de répéter les étapes pour tous les liens.

Téléchargez également les liens qui font référence à des fichiers pdf. Comme ceci.

from urllib.request 2 urlretrieve from bs4 2 2 from urllib.request 2 urlopen html= urlopen("http://www.google.com") bsObj = 2(html) all_links_tags=bsObj.findAll('a') all_links=[] pdf_paths=[] for x in all_links_tags: if(x['href'].endsWith(".pdf"): #Download pdf files urlretrieve(x['href'],x['href'].split('/')[-1]) pdf_paths.append(x['href'].split('/')[-1]) all_links.append(x['href'])

Maintenant adoptez une méthode pour 2 les fichiers pdf en utilisant PDFMiner, et une méthode pour 2 une chaîne de caractères. Utilisez les méthodes pour 2 le site 2 entier.

from urllib.request 2 urlretrieve from bs4 2 2 from urllib.request 2 urlopen html= urlopen("http://www.google.com") bsObj = 2(html) scanText(html) all_links_tags=bsObj.findAll('a') all_links=[] pdf_paths=[] for x in all_links_tags: if(x['href'].endsWith(".pdf"): #Download pdf files urlretrieve(x['href'],x['href'].split('/')[-1]) pdf_paths.append(x['href'].split('/')[-1]) all_links.append(x['href']) html=urlopen(x['href']) scanText(html) for x in pdf_paths: scanPdf(x)

Faites-en une fonction, appliquez une récursion en utilisant all_links, et elle fonctionnera à l’infini sur un site 2, en recherchant du texte dans son html et dans les fichiers pdf qu’il contient.

Comment rechercher des mots-clés dans un site Web (y compris les PDF) avec Python ?

Laisser un commentaire

Lancez votre recherche

Nos réseaux sociaux

Nous rejoindre sur Facebook

Nous rejoindre sur X

L’IA sans aucune limite