Crackear ReCaptcha

Origen

El spam y los contenidos robados son un problema cada vez mayor en la web. Para evitar el spam en los comentarios en blogs, foros, etc, hay dos f�rmulas populares:

Pedir al usuario que se registre, con lo cual una gran mayor�a de usuarios reales desisten y nuestro sitio web se queda sin valiosas contribuciones
Pedir al usuario que escriba una secuencia de letras y/o n�meros distorsionados tal que as�:
El nombre t�cnico de eso es “captcha“

Esta segunda estrategia es la m�s usada, porque no ahuyenda a los usuarios reales pero s� a los robots, que son incapaces de resolver el captcha.

�Los robots son incapaces de resolver el captcha?

Pues depende del tipo de captcha. El que hay ah� arriba es relativamente sencillo de resolver con un poco de procesado de se�al: eliminamos el ru�do, eliminamos las l�neas de c�culos y al final nos queda una imagen limpia con el 3163.

Hay, sin embargo, un tipo de captcha que por definici�n es imposible de resolver: el ReCaptcha.

C�mo funciona ReCaptcha

Recaptcha pone 2 palabras:

Una de ellas ya la tiene el sistema resuelta (bien porque s� se puede resolver v�a OCR, bien porque se saca de una base de datos de correspondencia “garabato – palabra”)
La otra es una palabra que ning�n OCR ha sido capaz de reconocer

El orden de las palabras es aleatorio: unas veces la que se puede reconocer est� a la derecha, otras a la izquierda.

La idea es que un humano es mejor que un OCR, as� que ser� capaz de reconocer ambas palabras.

El sistema recaptcha sabe cu�l es la que ya est� resuelta y esa se usa de palabra de control:

Si me resuelves bien la que yo conozco, entonces es que eres un humano y tomar� en consideraci�n la otra
Si la palabra de control la fallas, no te hago ni caso

Es decir, el sistema Recaptcha da por resuelto el captcha simplemente con acertar una de las dos palabras (con resolver la palabra de control ya es suficiente). El problema es que no puedes saber cu�l es la palabra de control.

Vamos, que por definici�n es imposible resolverlo mediante reconocimiento de caracteres (OCR).

C�mo romper ReCaptcha

La �nica manera de romper un recaptcha ser�a:

Aprovecharse de que resolviendo la palabra de control el captcha se da por resuelto
Tener una base de datos de imagen – palabra de control
Tener infinito tiempo, porque vas a tener que comparar todas las im�genes una a una (por supuesto, se puede optimizar, pero tampoco demasiado).

N�tese lo de “infinito tiempo”. �Entiendes ahora porque todos los sitios que usan recaptcha hacen que caduque a los 20, 30 � 60 segundos?

Otros usos de ReCaptcha

Lo mejor de todo, que no hab�a dicho ah� arriba, es que las palabras del recaptcha est�n sacadas de fallos en el OCR al escanear libros, documentos, etc de bibliotecas, peri�dicos, etc

P. ej. Google Books se pone a escanear un libro y luego Google usa todos los fallos de reconocimiento como captchas en Blogger y as� puede terminar el escaneo de todos los libros a coste cero. De hecho, est�n haciendo esto.