Todo el contenido de esta página está bajo una licencia de Creative Commons.

La güeb de
MACÍAS PAJAS
1226

Actualizado 31-1-2007

Una vez mas queda demostrado que es bueno hablar de las cosas, aunque sea en un tono exaltado y faltón. Cervantes Virtual ha retirado su superpágina de condiciones, como es lógico después de que tanta gente les haya puesto a caldo.

Sigo pensando que es una biblioteca muy mala. Por poner un ejemplo que ilustra su enorme ignorancia del medio en el que se pretenden mover: Usan formatos propietarios siempre que pueden (Sobre todo güindos).

Y para que no se olvide de qué estábamos hablando y porqué dije algunas cosas tan feas, unos extractos de las condiciones:

2.1.- Tipo de hiperenlace: el hiperenlace permitirá el acceso a la página de inicio de este sitio web, a la página principal de cualquiera de sus secciones, así como a cualquier obra de su fondo bibliográfico.

La autorización para insertar un hiperenlace no presupone, en ningún caso, un consentimiento para reproducir los aspectos visuales y funcionales («look and feel») de este sitio web1.

Del mismo modo, se prohíbe explícitamente la creación de un entorno o barra de navegación sobre las páginas web que componen este sitio.

2.2.- Aspecto del hiperenlace: el hiperenlace podrá consistir tanto en un texto como en un gráfico.

1.2.1.- En el primer caso, el texto deberá expresar rotundamente que enlaza con la BIBLIOTECA VIRTUAL MIGUEL DE CERVANTES.
La fuente utilizada será «Arial», el estilo «negrita», el tamaño de un mínimo de «12» y el color deberá tener las siguientes características: «rojo 155, verde 23, azul 26, matiz 254, saturación 189 y luminosidad 89»2.

1.2.2.- En el segundo caso, sólo se podrá utilizar el logotipo de «cervantesvirtual.com» tal y como puede encontrarse en la URL http://www.cervantesvirtual.com/marcolegal/normas_graficas.jsp.
El logotipo de la BIBLIOTECA VIRTUAL MIGUEL DE CERVANTES, deberá estar situado a una distancia de separación de 25 píxeles con respecto a cualquier otro elemento de la página web en la que se inserte3.

1.2.3.- Con carácter general, el aspecto, el efecto visual, la ubicación y, en general, las características del hiperenlace deberán invariablemente evidenciar que el mismo conduce al sitio web de la BIBLIOTECA VIRTUAL MIGUEL DE CERVANTES y que éste es independiente y no está unido por una relación, ni de colaboración, asociación, patrocinio, laboral ni de ningún otro tipo, a la página web que contiene el hiperenlace.

*NOTA: 1- Esto contradice las exigencias expresadas en (2) y (3).


Cervantes Virtual e impresentable.

Me enteré el otro día en varias bitácoras que leo habitualmente. La biblioteca "Cervantes Virtual" pone condiciones sobre como hay que enlazarles. Gráficos, tipos de letra, colores, e incluso como tiene que ser el diseño de la página que les enlaza. Además amenaza con tomar medidas legales contra aquellos que no cumplan tan pintorescas obligaciones. Cito literalmente:

Asimismo, la inserción de hiperenlaces cuyas características sean contrarias a las establecidas en el apartado 2º. de estas normas será perseguida por todos los medios que las leyes prevén.

El Camarada , con bastante razón, les llamaba analfabetos digitales, ya que enlazar la página con la sarta de tonterías ya rompe (por Cuatro veces) las condiciones mas estúpidas del universo. Habrá que preguntarle a los abogados que pasa, por ejemplo, con el derecho a la cita. Por cierto, si por vergüenza se deciden a borrar las condiciones hay copia aquí.

Y puesto que ya he infringido sus condiciones y me pueden perseguir ¿Porqué no ir un poco mas allá?. Verán, conozco Cervantes Virtual y me parece una mierda. Cada vez que he intentado obtener datos de ese lugar he acabado con un dolor de huevos que no recomiendo a nadie. El diseño está bastante elaborado, pero es absolutamente mareante. La cantidad de referencias circulares y absurdas es vergonzosa. ¿Porqué no mejorar el sistema de búsqueda? Por ejemplo la búsqueda por autor (Solo los muestra de 20 en 20).

Una de las primeras bases de datos que escribí fué para una biblioteca particular de unos 3000 volúmenes, así que creo saber como se debería buscar por autor. De todas formas hagámoslo sencillo: Solo dos registros: Nombre de autor y enlace a la ficha correspondiente en Cervantes Virtual.

Las fichas de los autores en la güeb se enlazan de la siguiente forma:

http://http://www.cervantesvirtual.com/FichaAutor.html?Ref=$referencia

Creo que la referencia es el registro índice de la tabla de autores (lo que sería otra chapuza). Así, por ejemplo, la ficha de Juan de Cazalla sería mas o menos así:

http://www.cervantesvirtual.com/FichaAutor.html?Ref=180

¡OOOPS! Creo que he vuelto a romper las normas. Bueno, ya que hemos llegado hasta aquí sigamos. Lo siguiente sería obtener de su güeb esas correspondencias entre "Referencia" y el nombre de pila del autor. Una buena forma sería un algoritmo de fuerza bruta que probase todas las referencias posibles. El siguiente script está escrito en PHP para ejecutar desde linea de comandos (Hace falta tener PHP-CLI Instalado). A medida que obtiene los datos los va almacenando en una base de datos creada previamente.


<?php

function http_archivo ($url)    // Descarga por http
  {
  $cojones = '';
  if (($puta = fopen ($url,"r"))){
    while(!feof($puta))
      {
      $cojon = fread ($puta, 1024);
      $cojones .=$cojon;
      }
    fclose ($puta);
    return $cojones;
    }
  else return "  - Error";
  }

function extrae_nombre ($pagina)
  {
  if (strpos ($pagina, "- Error")!=0) {
    return ("0");
    }
    else {
         $principio = explode ('<div style="font-size:150%;font-weight:bold;padding:10px 0px 10px 0px;">',$pagina);
         $final = explode ("</div>",$principio[1]); //Esto depende del formato que le den
         return ($final[0]);
         }
  }

for ($i=1; $i<200000; $i++)
  {
   $cadena = "http://www.cervantesvirtual.com/FichaAutor.html?Ref=$i";
   $resultado = extrae_nombre (http_archivo ($cadena));
   if ($resultado != "0"){

     $link = mysql_connect ('localhost','usu','contra');
     if (!$link){
        die ('error al conectarse a la base de datos'. mysql_error());
        }
     mysql_db_query ('cervantes',"insert into autores values (\"$resultado\",\"$i\",\"\",\"\")") 
        or die ("Error al introducir los datos");

     mysql_close ($link);

     echo $resultado;
     echo "<br>";
     }
     else { echo "Error en $i<br>"; }  // Dejo los br por si me da por ejecutar desde apache
  }

?>



El código es una chapuza realizable en pocos minutos. Sin embargo es eficaz. Si lo ejecutamos veremos que produce bastante texto de salida. Nuestra base de datos comenzará a llenarse al instante:

Nótese que solo obtengo el enlace y el nombre. Se podrían obtener mas datos, bibliografías, enlaces, etc... Cualquier persona malintencionada y mínimamente competente podría replicar todo el contenido de este "portal" en cuestión de horas. Añadiendo un buén motor de búsqueda no habría necesidad de ese horrible lugar llamado "Cervantes Virtual". Mientras tanto unos ignorantes se dedican a amenazar a la gente para explicarles como tienen que enlazarles. Hay que joderse.

Macías Pajas

(5) Comentarios. Comentar este artículo.


VOLVER A LA WEB DE MACÍAS PAJAS