sábado, 22 de octubre de 2016

XPath y su aplicación para extracción de datos


XPath es una sintaxis que se usa para recorrer los elementos de un documento XML
Mediante estos comandos podemos obtener cualquier nodo del árbol de elementos.
SINTAXIS
Para trastear con ejemplos, usaremos esta página
http://www.freeformatter.com/xpath-tester.html
e introduciremos el siguiente XML:
<libro>
    <titulo>Libro 1</titulo>
    <autor>Autor 1</autor>
    <capitulo num="1">
       Capitulo1
      <parrafo>
        Texto 1.1
      </parrafo>
      <parrafo destacar="si">
         Texto 1.2
         <enlace href="enlace">Enlace 1</enlace> 
         Texto 1.3
      </parrafo>
      </capitulo>
    <capitulo num="2" public="si" >
      Capitulo 2
        <parrafo>
         Texto 2.1
      </parrafo>
        <parrafo>
         Texto 2.2
         <enlace href="enlace">Enlace 2</enlace> 
         Texto 2.3
      </parrafo>
  
    </capitulo>
    <apendice num="a" public="si">
      Apéndice 1
        <parrafo>
         Texto 3.1
      </parrafo>
      <parrafo>
         Texto 3.2
         <enlace href="enlace">Enlace 3</enlace> 
         Texto 3.3
      </parrafo>
    </apendice>
  </libro>

SintaxisSignificadoResultado



/libro
Seleccionaremos el elemento raíz de la estructura de elementos o nodos, y todos los nodos que cuelgan de ella<libro>
  <titulo>Libro 1</titulo>
  <autor>Autor 1</autor>
  <capitulo num="1">
    Capitulo1
    <parrafo>Texto 1.1</parrafo>
    <parrafo destacar="si">
/libro/capituloDevuelve todos los capítulos que cuelgan de Libro<capitulo num="1">
  Capitulo1
  <parrafo>Texto 1.1</parrafo>
  <parrafo destacar="si">
   ...
<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
 
/libro/capitulo[2]Devuelve el 2º capítulo de Libro<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
  <parrafo>
    Texto 2.2
    <enlace href="enlace">Enlace 2</enlace>
    Texto 2.3
  </parrafo>
</capitulo>
//parrafoDevuelve todos los párrafos, estén donde estén en el documento.<parrafo>Texto 1.1</parrafo>
<parrafo destacar="si">
  Texto 1.2
  <enlace href="enlace">Enlace 1</enlace>
  Texto 1.3
</parrafo>
<parrafo>Texto 2.1</parrafo>
<parrafo>
  Texto 2.2
  <enlace href="enlace">Enlace 2</enlace>
  Texto 2.3
</parrafo>
<parrafo>Texto 3.1</parrafo>
<parrafo>
  Texto 3.2
  <enlace href="enlace">Enlace 3</enlace>
  Texto 3.3
</parrafo>
//parrafo/@destacar Para un elemento párrafo que contenga el atributo “destacar”, devuelve el valor de el atributro “Destacardestacar="si"
//parrafo[@destacar]Devuelve el párrafo que contenga un atributo “destacar”, da igual su valor<parrafo destacar="si">
  Texto 1.2
  <enlace href="enlace">Enlace 1</enlace>
  Texto 1.3
</parrafo>
//parrafo[@destacar=”si”]Devuelve el párrafo que contenga un atributo “destacar” con valor “si”<parrafo destacar="si">
  Texto 1.2
  <enlace href="enlace">Enlace 1</enlace>
  Texto 1.3
</parrafo>
//capitulo[@num>=2] Devuelve el capítulo cuyo numero sea mayor o igual que 2<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
  <parrafo>
    Texto 2.2
    <enlace href="enlace">Enlace 2</enlace>
    Texto 2.3
  </parrafo>
</capitulo>
//capitulo//enlaceDevuelve todos los enlaces que cuelguen de capítulos<enlace href="enlace">Enlace 1</enlace>
<enlace href="enlace">Enlace 2</enlace>
//capitulo[last()]Devuelve el útlimo capítulo<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
  <parrafo>
    Texto 2.2
    <enlace href="enlace">Enlace 2</enlace>
    Texto 2.3
  </parrafo>
</capitulo>
//capitulo[2]/text()   Devuelve el texto que hay en el capítulo 2Capitulo 2
//capitulo[position()>1]  Devuelve los capítulos a partir de la posición 2<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
  <parrafo>
    Texto 2.2
    <enlace href="enlace">Enlace 2</enlace>
    Texto 2.3
  </parrafo>
</capitulo>
//enlace[contains(text(),'Enlace 2')]
/ancestor::capitulo
Devuelve el capítulo donde haya un enlace con valor "Enlace 3"<capitulo num="2" public="si">
  Capitulo 2
  <parrafo>Texto 2.1</parrafo>
  <parrafo>
    Texto 2.2
    <enlace href="enlace">Enlace 2</enlace>
    Texto 2.3
  </parrafo>
</capitulo>
//parrafo[contains(text(),"Texto 1.1")]
/ancestor::capitulo
/following-sibling::capitulo
//enlace/text()
(leyendo de derecha a izquierda)
Devuelveme el texto del enlace del capítulo siguiente al capítulo donde haya un parrafo que contenga "Texto 1.1"
(leyendo de izquierda a derecha)
Localízame a un parrafo cuyo texto contiene "Texto 1.1", navega cualquier antepasado (padre, abuelo, etc) que sea de tipo capítulo, vete al siguiente capítulo y me devuelves el texto de todos los enlaces
Enlace 2


ENLACES
Podéis ampliar más información en:
 
- http://www.w3.org/TR/xpath   Especificación del XPath
- http://www.w3schools.com/xml/xpath_intro.asp
- https://msdn.microsoft.com/en-us/library/ms256471(v=vs.110).aspx
- http://saxon.sourceforge.net/saxon6.5.3/expressions.html
 
 Tipos de descarga de html
El HTML, al estar basado en XML, también se le puede aplicar XPath.
Antes de meternos en materia, voy a explicar un poco cómo nos llegan los datos de las páginas web.

Por HTML:
El navegador envía una petición al servidor, y en la respuesta, se devuelve HTML con los datos que queremos sacar. Este método no representa problema alguno y lo podemos atacar con XPath.

 
Por JavaScript:
El navegador envía una petición al servidor, y el servidor devuelve una plantilla HTML con JavaScript, y el navegador al interpretarlo, llama a unas apis que devuelven los datos, y rellenan la plantilla con los datos traídos en la segunda parte. (p.e, morningstar, finance.yahoo.com).
Este método se está poniendo de moda ya que hace algo más complicado extraer los datos, y por otra parte usa tecnologías más recientes (Ajax, Angular) que hace que la página se cargue sin postbacks.

 
Si estamos intentando traernos HTML por métodos que no tengan navegador (tipo funciones GSheets ImportXML, ImportHTML, HttpWebRequest en .Net ) nos traerá la plantilla HTML y los scripts JavaScript, pero estas funciones no procesan el JavaScript, por lo que no podemos obtener datos mediante este método.
 
Para extraer datos de este tipo de página, hay que analizar cómo se descarga los datos (con Fiddler se puede ver las llamadas que hace la web), interpretando su API, etc.
En el caso de Morningstar.com, podríamos sacar la información mediante el botón de exportar CSV






También en esta dirección hay más información de algunas llamadas a la API de Morningstar

 
Ejemplo de construcción y uso de XPath
 
Vamos a extraer información financiera de las páginas de InvertirEnBolsa.info para rellenar un Google Spreadsheet.

Recordamos que GSheets posee funciones financieras propias para sacar cotizaciones, volúmenes, PER, BPA, etc)

Para crear la ruta XPath de un elemento, por ejemplo el EBITDA del 2015 de Coca-Cola:
Abrimos con chrome la página de CocaCola en IeB
http://www.invertirenbolsa.info/historicodividendos/empresa/coca-cola
Pulsamos F12 en chrome para que se nos abran las tools developer.

Con la pestaña "elements" seleccionada(1), pulsamos "seleccionar elemento"(2) y seleccionamos el elemento que queremos obtener(3), y así puedes ver el elemento HTML que queremos seleccionar(4).




En este caso, vemos que con buscar el siguiente elemento TD al TD que su texto sea "EBITDA". Fácil, no? 

El Xpath sería:
Localízame un elemento TD cuyo texto sea 'EBITDA', te vas al 1er siguiente hermano.
//td[text()='EBITDA']/following-sibling::td[1]

La fórmula en el GSheets a usar sería:
=IMPORTXML("http://www.invertirenbolsa.info/historicodividendos/empresa/coca-cola"; "//td[text()='EBITDA']/following-sibling::td[1]")

El resultado es

1,58%
10.698,00
 

 
Este resultado devuelve 2 datos ya que nos está cogiendo el % ebitda que hay en otra tabla. 

Para centrar bien el resultado, tenemos que afinar más la búsqueda, añadiendo la tabla a la que pertenece el elemento.

Para ello, subimos hacia arriba para ver la tabla de la que cuelga el TD, y vemos que es descendiente de un table cuya class contiene "cuarta tabla".


El XPath correcto sería:
Localízame una tabla cuyo atributo class contiene 'cuarta-tabla', y dentro de sus elemento, busca un elemento TD cuyo texto sea 'EBITDA', y me devuelves el 1er siguiente hermano.

//table[contains(@class,'cuarta-tabla')]//td[text()='EBITDA']/following-sibling::td[1]

La fórmula en el GSheets a usar sería:
=IMPORTXML("http://www.invertirenbolsa.info/historicodividendos/empresa/coca-cola"; "//table[contains(@class,'cuarta-tabla')]//td[text()='EBITDA']/following-sibling::td[1]")

El resultado es
 10.698,00

Esta es una forma de componer una expresión XPath mirando directamente el HTML. Tienes más control al comprender de dónde estás cogiendo el dato, incluso modificar el xpath dinámicamente de teniendo en cuenta el año, el ticker, etc.

Otra alternativa es, al seleccionar el elemento a rescatar, con botón derecho, copiar Xpath.


Esta forma no me acaba de convencer, ya que en el momento que cambien el orden o metan algún campo más, es mayor el riesgo de que no muestre el resultado correcto.

El resultado mediante este método es
//*[@id="gkMainbody"]/div/div[3]/div/div[2]/div[3]/table/tbody/tr[7]/td[2]

También hay plugins de chrome para generar automáticamente la ruta XPath, como XPath Helper

Espero que os sea de utilidad.

Saludos.
 

sábado, 7 de febrero de 2015

Expresiones regulares



Las expresiones regulares son el típico ejemplo de las cosas que si no las usan con frecuencia se olvidan y tienes que ir tirando de Google para recordarlas.

Por si no las conocéis todavía, son una gran ayuda a la hora de buscar y reemplazar textos, aunque tienen una pequeña curva de aprendizaje. Una vez superada, no puedes vivir sin ellas.

Tiene soporte en los lenguajes, entornos de desarrollo y en los editores de textos más conocidos.

Podemos practicar las búsquedas con Notepad++,  un editor free source code muy completo.

Una guía de referencia rápida de expresiones regulares que suelo consultar es http://msdn.microsoft.com/es-es/library/az24scfc.aspx

Tienes más info en



Repasemos con ejemplos más útiles.

Caracteres

.
Cualquier carácter que no sea el salto de linea \n
m.sa
La masa está en la mesa de la musa
[chars]
Coincide con cualquier carácter de los especificados
m[ae]sa
La masa está en la mesa de la musa
[^chars]
Cualquier carácter de los que NO estén encerrados por corchete
[^aem]
mesa 18
\t
Caracter de tabulación
\r
Caracter de Retorno de carro (ASCII 13)
\n
Caracter de Nueva Linea (ASCII 10)
Recordad que el salto de línea de Windows es \n\r  (chr 10 + chr 13)
\
Seguido de un carácter, es la forma de representar ese carácter si coincide con símbolos reservados. P.Ej,  \.   \*  \(   \)
\x00
Caracter ascii especificado en hexadecimal.
Por ejemplo, “\x23” seleccionará “#”  (ascii 35)

 

Clases de carácter

\w
Cualquier carácter numérico o letra
\w
P#5.8
\W
Cualquier carácter que no sea numérico o letra
\W
P#5.8
\s
El carácter de espacio en blanco
\S
Cualquier caracter que no sea un espacio en blanco
\d
Cualquier dígito decimal
 
 
a18
\D
Cualquier carácter que no sea un dígito decimal
 
a18

 

 

Cuantificadores

Los cuantificadores añaden cantidad de repeticiones a los caracteres

*
Repetición ninguna o más veces
+
Repetición una o más veces
Ej: Cualquier número que se repita una o más veces
\d+
d189b40h
?
Cero o una vez
Ej: Cualquier cifra, seguida opcionalmente de una letra, y otra cifra
\d\w?\d
1A9  19 1
{n}
Exactamente N veces
Ej de extracción de una fecha: 2 digitos, la barra /, 2 digitos, la barra /, 4 digitos 
\d{2}/\d{2}/\d{4}
El 15/08/2014 llegaré a 2/300
{n,}
Al menos N veces
Elíge las palabras de al menos 3 letras 
\w{3,}
arbol, ale, so
{n,m}
De N a M veces
Ej de extracción de una fecha que puede contener 1 o 2 digitos en días y meses, y 4 digitos en año
\d{1,2}/\d{1,2}/\d{4}
El 15/8/2014 llegaré a 2/300

 

Anclajes

^
Inicio de línea
 
Selecciona la línea entera que empieza por número
^\d.*$
frase 1.
2 frase
Frase 3.
$
Fin de línea
 
Selecciona la última palabra que no acabe en punto
\w+[^.]$  
ó
\w+$
La frase 1.
La 2ª frase
Frase numero 3.
\b
Marca la posición de una palabra limitada por espacios en blanco, puntuación o el inicio/final de una cadena.
 
Ej: Selecciona las palabras que comiencen por vocal
\b[aeiou]\w*\b
encina,pino,
romero,olmo
,almendro,cerezo.

 
 

Greedy and Lazy  (búsquedas tardías y tempranas)

Por defecto, todas estas búsquedas que hemos visto son búsquedas tardías. Es decir, tienden a englobar el mayor número de elementos.
Si hacemos una búsqueda de los tags <span> de un html devolverá del primero al último.

 

<span>.*</span>
Esta es la <span>casa</span> con las mejores <span>vistas</span>

 

Como veis, el modo tardío ha seleccionado desde el primer span al último span, incluyendo el texto del medio.  Si queremos cambiar el comportamiento de tardío (greedy) a tempranp (lazy), usaremos el símbolo ?

<span>.*?</span>
Esta es la  <span>casa</span> con las mejores <span>vistas</span>

 

Grupos

Los grupos se pueden usar para posicionarnos en un punto de la búsqueda sin llegar a seleccionarlo. Es algo duro de entender, pero con un ejemplo se ve mejor.

En el ejemplo anterior, vimos que con la expresión regular <span>.*?</span> seleccionábamos los span, incluyendo los tags. Si lo que queremos es seleccionar el CONTENIDO del span haciendo referencia al propio tag SPAN sin seleccionarlo,  los introduciremos dentro de grupos de búsqueda anterior y posterior.

(?<=expr) posiciona el resultado de la búsqueda tras el resultado de expr, sin llegar a seleccionar la expresión

(?=expr) posiciona el resultado de la búsqueda justo donde comienza la expresión, sin llegar a seleccionarla

Con lo que podemos conseguir seleccionar el contenido de 2 tags html

(?<=<span>).*?(?=</span>)
Esta es la <span>casa</span> con las mejores <span>vistas</span>

 

Con los grupos también podemos usar condicionales, es decir, si se cumple una condición u otra

En este caso, elegiremos entre las marcas de inicio de palabra,  las fechas que sean 1 o 2 cifras, barra, 1 o 2 cifras , barra, y o 2 o 4 cifras

\b\d{1,2}/\d{1,2}/(\d{4}|\d{2})\b
 
El 15/8/2035 llegaré a 2/300
El 3/12/15 llegaré a 2/300
El 3/12/340 llegaré a 2/300

 

Otra característica de los grupos es que los resultados los podemos introducir en variables para tratarlos desde c#.

Un grupo puede definirse con nombre o con índice.

(expr)  Grupo con índice

(?<nombre>expr)  Grupo con nombre de variable

^\w+,\sa\s(?<DIA>\d{1,2})\sde\s
(?<MES>\w+\b)\sde\s(?<AÑO>\d{4})$
Valencia, a 4 de febrero de 2018
Madrid, a 15 de abril de 2019

Traducido “al castellano”, quedaría de la siguiente forma:

“Desde el inicio de la línea, selecciona letras hasta llegar a una coma, un espacio, una “a”, un espacio, 1 o 2 dígitos que los introduces en la variable “DIA”, un espacio, “de”, un espacio, texto que lo introduces en la variable “MES”, un espacio, “de”, un espacio, 4 dígitos que los introduces en la variable “AÑO”

Otro ejemplo de grupos: Extraer  fechas que están en un formato algo mezclado

^\w{2}(?<AÑO>\d{4})(?<MES>\d{2})(?<DIA>\d{2})_
(?<H>\d{2}):(?<M>\d{2}):(?<S>\d{2})\.txt$
DW20141128_08:59:48.txt
UP20141115_09:39:46.txt
DW20141106_11:45:20.txt

 

Pasado a c#, este ejemplo se quedaría de la siguiente manera.




 
Ejemplos para validaciones
 


IBAN (España)
ES\d{2}[ ]\d{4}[ ]\d{4}[ ]\d{4}[ ]\d{4}[ ]\d{4}|ES\d{22}
Codigo postal
^([1-9]{2}|[0-9][1-9]|[1-9][0-9])[0-9]{3}$
Número
telefono (España)
^[0-9]{2,3}-? ?[0-9]{6,7}$
Visa
 
^((67\d{2})|(4\d{3})|(5[1-5]\d{2})|(6011))(-?\s?\d{4}){3}|(3[4,7])\ d{2}-?\s?\d{6}-?\s?\d{5}$
Contraseña segura
(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{8,10})$
URL
^(ht|f)tp(s?)\:\/\/[0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*(:(0-9)*)*(\/?)( [a-zA-Z0-9\-\.\?\,\'\/\\\+&amp;%\$#_]*)?$
Correo electrónico
 
^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(( [a-zA-Z0-9\-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$

 

Conclusión

Las expresiones regulares, como habéis podido comprobar, es una herramienta muy potente que nos puede sacar de muchos apuros y ahorrarnos docenas de bucles infernales para trastear con textos.

 

Espero que os sea de provecho.