Vengo pidiendo ayuda porque llevo un buen rato peleándome intentando descargar una página web sin mucho éxito, he googleado durante un buen rato y no he sido capaz de solucionarlo por mi mismo así que vengo en busca de la sabiduría de MV.
La cuestión es que quiero descargar el contenido de miles de paginas web para después parsearlo pero wget no soporta javascript, por lo que no me descarga el contenido de las tablas. He probado con curl incluso con phantomjs (que no sabía ni que existía y he hecho copy&paste de una de los resultados de google) y nada de nada, no consigo bajar la dichosa información.
¿Tan difícil es descargarlo tal cual lo imprimiría un navegador?
Se que con curl puedo hacer una llamada la función directamente que crea la tabla, pero tras pelearme un rato con el código web, la verdad es que no me aclaro.
Por si queréis exactamente lo que estoy intentando obtener son los campos "Entity ID" y "Case UUID" de esa página web:
https://portal.gdc.cancer.gov/files/0785da49-d379-4c98-871c-ef1b5bfc5f3a
Mi amor eterno a quien me ayude.