//$campos="id,nombre,apellidos,circunscripcion,nacimiento,partido,grupo_parlamentario,cargos_anteriores,estado_civil,curriculum,pos_fila,pos_butaca,pos_sector,twitter,facebook_url,web,linkedin_url,flickr_url"; $datos = scraperwiki::select("id,nombre,apellidos,circunscripcion,partido,grupo_parlamentario,cargos_anteriores,estado_civil,twitter,facebook_url,linkedin_url,flickr_url,nacimiento from pablog.swdata"); //Scrapeamos diputado a diputado sus correos y la info de los órganos a los que pertenece // y lo insertamos en la tabla junto a la info ya existente (pablog) foreach ($datos as $fila) { unset($diputado); $diputado = array(); $diputado["id"] = $fila["id"]; $diputado["nombre"] = $fila["nombre"]; $diputado["apellidos"] = $fila["apellidos"]; $diputado["circunscripcion"] = $fila["circunscripcion"]; $diputado["partido"] = $fila["partido"]; $diputado["grupo_parlamentario"] = estandarizarGP($fila["grupo_parlamentario"]); $diputado["ecivil_estudios_cv"] = $fila["estado_civil"]; print_r("ECECV: " . $diputado["ecivil_estudios_cv"]); $diputado["fecha_nac"] = fechaNumerica($fila["nacimiento"]); $diputado["otras_legis"] = estandarizarLegislaturas($fila["cargos_anteriores"]); $diputado["twitter"] = $fila["twitter"]; $diputado["fb"] = $fila["facebook_url"]; $diputado["linkedin_url"] = $fila["linkedin_url"]; $diputado["flickr_url"] = $fila["flickr_url"]; $url = "http://www.congreso.es/portal/page/portal/Congreso/Congreso/Diputados/BusqForm?_piref73_1333155_73_1333154_1333154.next_page=/wc/fichaDiputado?idDiputado=" . $diputado["id"] . "&idLegislatura=10"; $html_content = scraperwiki::scrape($url); $html_content = html_entity_decode(htmlspecialchars_decode($html_content), ENT_COMPAT, "UTF-8"); $html = str_get_html($html_content); $diputado["email"] = obtenerEmails($html); $diputado["web"] = obtenerWebs($html); $diputado["pos_hemiciclo"] = obtenerPosHemiciclo($html); $cargos = obtenerCargosCongreso($html); if ($cargos !== false) { $diputado["comisiones"] = $cargos["comisiones"];
function scrapSemana($sem, $year) { $url = "http://www.congreso.es/portal/page/portal/Congreso/GenericPopUp?_piref73_2138150_73_2138147_2138147.next_page=/wc/agendaCompleta&semana=" . $sem . "-" . $year; $html_content = scraperwiki::scrape($url); $html_content = traducirHTML($html_content); $agendaHTML = str_get_html($html_content); $num = 1; for ($i = 1; $i < 8; $i++) { $dia = array(); $agendaDia = $agendaHTML->find('div[id=agenda' . $i . ']', 0); $fechadia = sinTNS($agendaDia->find('div[class=prog_dia]', 0)->plaintext); $dia["fecha"] = fechaNumerica($fechadia); $dia["nombre"] = substrHasta($fechadia, " "); foreach ($agendaDia->find('div[class=parrilla]') as $element) { $evento = array(); $evento["dia"] = $dia["nombre"]; $evento["fecha"] = $dia["fecha"]; //$evento["id"]=$num."-".$sem."-".$year; $evento["id"] = $num; $evento["hora"] = getHora($element); $evento["url"] = getURL($element); $evento["lugar"] = getLugar($element); $evento["event"] = getEvento($element, $evento["lugar"]); $evento["info"] = getInfo($element, $evento["event"], $evento["lugar"]); print_r(". scrapeado evento " . $evento["id"]); print_r(". evento: " . $evento["event"]); scraperwiki::save_sqlite(array("id"), array("id" => $evento["id"], "dia" => $evento["dia"], "fecha" => $evento["fecha"], "hora" => $evento["hora"], "url" => $evento["url"], "lugar" => $evento["lugar"], "info" => $evento["info"], "event" => $evento["event"])); $num++; } } }