Scraping con PHP usando cURL y DOMXPath

Para conectarse a una página web y obtener el código html de ella se puede utilizar la librería cURL.
Documentación: http://php.net/manual/es/book.curl.php

Como ejemplo se muestra esta función que recibe como parámetros la dirección web de la que se desea obtener la información.

function getDomUrl($url){
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $url);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_REFERER, "");
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
	curl_setopt($ch, CURLOPT_ENCODING, "ISO-8859-1,UTF-8;q=0.7,*;q=0.7");
	curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 
               (Macintosh; Intel Mac OS X 10_6_6) AppleWebKit/535.19 
               (KHTML, like Gecko) Chrome/18.0.1025.151 Safari/535.19");

	$body = (curl_exec($ch));
	curl_close($ch);

	return $body;	
}

A continuación, para procesar este DOM obtenido de una página web podemos utilizar la librería DOMXPath.
Documentación: http://php.net/manual/es/class.domxpath.php

Esta librería utiliza XPath (XML Path Language) que se trata de un lenguaje que permite construir expresiones que recorren y procesan un documento XML.
Documentación: http://es.wikipedia.org/wiki/XPath

Ahora tenemos una función que recibe como parámetros el DOM de una página y una expresión regular XPath que extraerá una parte de dicho DOM.

			
function getDomXPath($domh, $path){
	$xpath = new DOMXPath($domh);
	return $xpath->query($path);
}

Por último, un ejemplo de uso de estos métodos:

$dom = new DOMDocument();
$domhtml = getDomUrl("http://www.disastercode.com.es");
@$dom->loadHTML($domhtml);
$trozo = getDomXPath( $dom, "//div[@id='plantilla']/center/table[2]/tr/td/center/table/tr/*/a[@id='neutro']/../..");

Relacionado

1 Comentario

benmayor 17-marzo-2017 a las 22:18

Thank you for tthe auspicious writeup. It in truth used to be a enjoyment account
it. Look complex tto more brought agreeable from you!
By the way, how could we keep in touch?

Responder

Dejar un comentario

Categorias

adobe (2)
agile (1)
Alfresco (1)
Android (26)
Angular (6)
angularjs (10)
apache (1)
axis (2)
Bases de datos (14)
Bootstrap (1)
C# (3)
Cámara (1)
chrome (3)
Codeigniter (2)
Control de Versiones (2)
CSS (25)
CVS (1)
Django (9)
Django Rest Framework (1)
DNS (1)
Docker (3)
dominio (1)
eclipse (5)
Entity Framework (2)
ETL (1)
Firefox (6)
flash (1)
freecad (1)
Git (12)
GitHub (4)
gpg (2)
Groovy (1)
Handlebars (1)
hibernate (4)
hosting (1)
HTML (50)
HTML 5 (26)
Impresión 3D (9)
Inkscape (1)
IOS (2)
ireports (3)
Java (44)
Javascript (55)
JBoss (5)
JPA (2)
JQuery (20)
Json (7)
JSP (6)
Keycloak (1)
Lamp (1)
LDAP (2)
lean (1)
linkedin (1)
LINQ (1)
linux (13)
Livecycle (1)
log (1)
microcontroladores (1)
MongoDB (4)
MySQL (8)
Node.js (5)
OC4J (1)
Openshift (2)
Oracle (6)
Patrones de Diseño (1)
Photoshop (2)
php (20)
PostgreSQL (1)
python (19)
rabbitmq (1)
Raspberry PI (13)
Raspherry PI (5)
React (6)
seguridad (3)
Selenium (3)
Sencha Touch (1)
Sin categoría (29)
Spring (17)
spring-boot (3)
SQL (7)
SQLServer (1)
SSO (1)
struts (2)
SVN (1)
Talend (1)
Tomcat (6)
unity (3)
Visual Studio Code (2)
vmware (5)
Web Services (11)
windows (18)
wordpress (10)
Xiaomi (1)
xml (2)

Scraping con PHP usando cURL y DOMXPath

Relacionado

1 Comentario

Dejar un comentario

Categorias

Trabajos Realizados

Sitios de interes

Scraping con PHP usando cURL y DOMXPath

Compártelo:

Relacionado

1 Comentario

Dejar un comentario

Categorias

Trabajos Realizados

Sitios de interes