Obtener datos de una pagina web

quique_nach #1 Abr '13

Buenos días casi tardes...

quería comentar en el foro si alguien podría ayudarme con un problema que tengo.
no tengo ni idea de como podría coger...(de una web tipo alquiler de viviendas) los precios y que se actualicen.

he estado mirando y he encontrado que desde excel y con el cron jobs podría llegar a hacer algo similar, pero no se como podría llegar a hacerlo.

si alguien me ayudara lo agradecería.

Salu2.

LordPython #2 Abr '13

Supongo que te refieres a "data scraping". Échale un vistazo en don Google.

1 2 respuestas

EnZo #3 Abr '13

Lo que dice #2 pero basicamente se basan en regexp. Pasate por este post tambien http://www.mediavida.com/foro/dev/expresiones-regulares-ahora-modo-facil-468635

1 1 respuesta

eXtreM3 #4 Abr '13

Con esto http://php.net/manual/es/function.file-get-contents.php puedes obtener todo el código fuente, parséalo con expresiones regulares y tendrás tus precios.

1 respuesta

quique_nach #5 Abr '13

#4 #3 #2 mil millones de gracias a todos por responder.
Me lo mirare todo.

DarkSoldier #6 Abr '13

#7 yo cuando he necesitado algo así siempre he usado http://simplehtmldom.sourceforge.net/

hace relativamente poco parsee un foro en phpBB enterito, tengo todo un foro con mas de 20k mensajes en un json xDDD

(aqui si kaoD xD)

1 1 respuesta

PiradoIV #7 Abr '13 Brongster

XPath es mil veces mejor que andar con expresiones regulares, incluso hay extensiones para Chrome que te agilizan el proceso

3 1 respuesta

Nucklear #8 Abr '13 BugHunter

#7 Si pero XPath es mas jodido de aprender que Regex xD

2 respuestas

Lecherito #9 Abr '13 A toda leche

#8 Depende de qué nivel de Regex quieres xDD

1 respuesta

PiradoIV #10 Abr '13 Brongster

#8 ni de coña x'DDDD

1 respuesta

Nucklear #11 Abr '13 BugHunter

#9 #10 Mi recuerdo de cuando trabajé con XPath es ese xD

APOCa #12 Abr '13

Como comenta #6 con simplehtmldom se puede hacer también.

Lo he usado para un plugin de wp que hice, concretamente para el autocompletador pillando los datos de filmaffinity. Eso si, si te cambian la web -como paso con film hace 2 semanas- te tocara modificar el codigo xd.

1 respuesta

quique_nach #13 Abr '13

#12 tienes algun ejemplo de lo que hicistes?

1 respuesta

alterego #14 Abr '13

#1
Una pequeña guía con ejemplos de como capturar datos de una web mediante php y curl.
Merece la pena echarle un ojo.

http://www.jacobward.co.uk/web-scraping-with-php-curl-part-1/
http://www.jacobward.co.uk/working-with-the-scraped-data-part-2/

APOCa #15 Abr '13

#13

spoiler

 include('php_simple_html_dom_parser/simple_html_dom.php');
    $search_url = "http://www.filmaffinity.com/es/advsearch.php?stext=".$search_name."&stype%5B%5D=title&country=&genre=&fromyear=&toyear=".$current_year;

$html = file_get_html( $search_url );

$array_return = array();
$pages = 0;
$i=0;
foreach($html->find('a') as $a) {
    if( substr($a->href,0,8) == '/es/film' ){
        $array_return[$i] = $a->plaintext; 
        $i++;
    }else if( substr($a->href,0,19) == 'advsearch.php?page=' ){
        $a_page = $a->plaintext;
        if ( $a_page > $pages ) {
            $pages = $a_page;
        }
    }
}

if ( $pages > 1 ) {
    for($iter=2;$iter<=$pages;$iter++){
        $search_url = "http://www.filmaffinity.com/es/advsearch.php?page=".$iter."&stext=".$search_name."&stype[]=title";

        $html = file_get_html( $search_url );
        foreach($html->find('a') as $a) {
            if( substr($a->href,0,8) == '/es/film' ){
                $array_return[$i] = $a->plaintext; 
                $i++;
            }
        }   
    } 
}

echo ''. json_encode( $array_return ) . '';

Tunnecino #16 Abr '13

Mejor si lo subes a un pastebin o algo parecido, por que el code de mv hace la gracia, y te acorta las URL en los code blocks.

Meleagant #17 Abr '13 :psyduck:

Yo cuando he hecho historias de estas he programado algún scrapper en Java con JSoup.

Si necesitas algo más complejo (que envíe información además de simplemente obtener HTML) la librería HttpComponents es muy útil.

Weahl #18 May '13

¿Y que hay que hacer cuando has de logearte para conseguir ciertos datos?

Porque ahí es donde estoy atascado, además la página está en .NET y no sé si aun será más complicado.

2 respuestas

elkaoD #19 May '13

#18 loggearte como lo harías normalmente (y guardar las cookies que te devuelve cuando estás loggeado).

1 respuesta

Meleagant #20 May '13 :psyduck:

#18 Pues te revisas el código, ves la información que se envía por POST o GET y utilizas algo como HttpComponents para generar los mensajes.

1 respuesta

Weahl #21 May '13

#19 #20 El problema es que hace uso de VIEWSTATE, que son una especie de tokens que con cada conexión da un código y me está costando la vida

LOc0 #22 May '13

Instálate algo como esto -> https://addons.mozilla.org/es/firefox/addon/httpfox/

Después es cuestión de imitar la petición. Lo más complicado es que envie códigos calculados por Javascript, que tendrás que portar el código de JS al lenguaje de tu crawler o interpretarlo, pero tp es nada del otro mundo.

Si estás con PHP puede que te simplifique un poco la vida -> https://github.com/tonikelope/FastCurl

Salu2

1 respuesta

Weahl #23 May '13

#22 Lo primero con Firebug ya se hace algo idéntico en la pestaña de Red, aunque se visualiza bastante mejor la verdad.

Lo segundo le echaré un ojo a ver que tal, espero conseguirlo algún día xD

Gracias

JuAn4k4 #24 May '13

Al final te cambian la web y te han jodido el script, y en general no cumples los terminos y condiciones, aunque los terminos legales de esto son bastante inespecificos, por lo que tienes via libre.

microhelix #25 Nov '14

Revivo esto para no abrir otro tema (si debería hacerlo que alguien que me pegue un toque para no repetir error).

¿Qué lenguaje debería usar para extraer datos de un puñado de webs?

Estoy escribiendo un programa en c++ que me gustaría tener corriendo en segundo plano. Lo que quiero es que extraiga ciertos valores cada X tiempo de dichas páginas. He buscado por inet pero no me ha quedado muy claro. Me da igual aprender algo nuevo; quiero lo más ligero/eficiente.

He visto scrapy mencionado mucho, pero al ser en python confío en su rapidez. ¿Estoy prejuzgando mal?

2 respuestas