Cómo reCaptcha sabe que "eres un humano y no un robot" con solo marcar una casilla

Google compró la empresa reCaptcha en septiembre del 2009, y desde entonces ha estado haciendo evolucionar su tecnología para proteger las páginas web de bots maliciosos distinguiéndolos entre los humanos. Cuando pensamos en los Captchas a todos nos vienen a la mente el tener que escribir palabras imposibles y sin sentido, pero hace tiempo que el proceso se hizo mucho más sencillo.

Con la actual tecnología No CAPTCHA reCAPTCHA, sólo hace falta hacer click en una casilla para identificarte como humano. El avance fue presentado por Google en diciembre del 2014, y hoy vamos a explicarte cómo es esto posible y qué datos tiene en cuenta el algoritmo de este sistema para saber que eres humano.

Con el paso del tiempo y para proteger a las webs de unos bots que estaban aprendiendo a saltárselos, los Captchas se estaban haciendo cada vez más complicados. Tanto que a veces los bots tenían más fácil decir que eran humanos que los propios usuarios de la red. Por lo tanto, Google decidió tomar un camino diferente y hacer el sistema de identificación mucho más sencillo.

Para mantener su seguridad Google no ha desvelado los algoritmos que utiliza para identificarnos como humanos, pero se sabe parte de los datos que utilizan para hacerlo. En pocas palabras, Google cotillea qué has estado haciendo hasta pulsar sobre el recuadro, y eso es algo que ha preocupado a parte de la comunidad más concienciada con la privacidad.

¿Por qué necesitamos Captchas?

Si tienes un foro o una web con encuestas y formularios, además de personas humanas te exponemos a que los bots también puedan registrarse y los utilicen para realizar acciones abusivas. Vamos, que puede llegar a tu foro y llenártelo de mensajes de spam o hacer lo mismo con los comentarios de tu blog.

Los Captcha son una respuesta a ese comportamiento, un automatismo que trata de idenficar a los bots para que no puedan registrarse. Entre estos sistemas, uno de los más populares es el reCaptcha de Google, conocido también porque además de mantener los bots a raya utiliza lo que escribimos en él para digitalizar libros, mejorar mapas y resolver problemas especialmente difíciles para las inteligencias artificiales actuales.

Sin embargo, durante años esta tecnología ha tenido algunos problemas clave. Mediante fórmulas de identificación cada vez más complejas también impedían que personas con problemas de accesibilidad o discapacidades se registrasen. Además, como hemos comentado antes, los bots han ido evolucionando para ser capaces de superar este tipo de barreras automáticas.

Es en este concepto en el que hace unos años Google presentó una nueva propuesta. Una que pasaba por hacer el proceso mucho más sencillo para los humanos, pero a la vez mucho más complicado para bots y automatismos. Pero claro, para que esto sea posible Google necesita obtener los suficientes datos como para identificarnos como humanos.

Cómo funciona el No CAPTCHA reCAPTCHA

La manera que se le ocurrió a Google de identificarnos como humanos sin que tengamos que escribir nada es revisar todo lo que hemos estado haciendo antes de pulsar sobre el recuadro "No soy un robot". Tal y como uno de los portavoces de Google le contó a WIRED en su día, para ello el reCaptcha examina pistas no escritas de cada usuario, como la dirección IP o las cookies activas.

Con estos dos parámetros, el algoritmo de Google comprobará nuestro comportamiento a través de Internet, y se asegurará de que somos ese humano al que las cookies han estado siguiendo mientras navegaba. Más allá de eso, el Algoritmo también tendrá en cuenta lo que hacemos cuando nos aparece la caja de reCaptcha.

También registra el movimiento de tu ratón desde que aparece hasta que haces click.

Para ello, el sistema de Google también registra el movimiento de nuestro ratón para ver cómo nos comportamos cuando aparece el reCaptcha. Los bots suelen hacerlo de una manera automática, mientras que los humanos no solemos ir siempre derechos a la caja seleccionable, y por lo que el recorrido de nuestro ratón es diferente. Ese tipo de comportamiento es el que el algoritmo buscará para identificarnos como humanos.

Además de estos datos, Google también tiene en cuenta otros parámetros que ha decidido mantener deliberadamente ocultos. ¿Por qué? Pues porque si hiciera pública toda la información que utiliza para identificarnos los creadores de los bots sabrían qué se tiene en cuenta, y podrían diseñar sus automatismos para saltarse fácilmente la seguridad.

Como seguramente más de una vez hayas podido comprobar, en el caso de que tu comportamiento le haga dudar al sistema de tu naturaleza humana, el reCaptcha te mostrará una ventana en la que te pedirá que escribas un texto o que hagas click sobre determinadas imágenes. Vamos, más o menos vuelve al sistema de seguridad de toda la vida.

¿Son una amenaza para la privacidad?

¿Cómo, que Google revisa las páginas que hemos visitado, cómo nos hemos comportado en ellas y el movimiento de nuestro propio ratón para saber si somos humanos? Aunque lo hagan con un fin positivo, el simple hecho de que lo hagan le da visibilidad a la inmensa cantidad de datos sobre nosotros que las empresas online son capaces de registrar sin que lo sepamos, y esto hace sonar todas las alarmas de los defensores de la privacidad.

Hace un par de años, varios investigadores aseguraron haber descifrado el código del nuevo reCaptcha de Google, y acusaron a la empresa del buscador de estar almacenando mucha más información sobre el comportamiento de los usuarios de la que decían. Dijeron también que aunque el sistema de seguridad no estaba anunciado como un producto de Google, hacía uso de sus cookies para registrar nuestros movimientos.

Más que saber si somos un humano, lo que sabe es qué humano somos.

Esto quiere decir, que si en teoría la única finalidad de este sistema es la de identificarnos como humanos, tal y como hemos mencionado antes, lo que realmente está haciendo es saber qué humano concreto somos mediante el entramado de cookies de la empresa del buscador. Algo que le permite tener unos perfiles más completos de nuestro comportamiento online gracias a una herramienta de seguridad.

Para ello, según estos investigadores, la empresa del buscador también estaba registrando la resolución y el tamaño de pantalla de los cibernautas, así como la hora, su idioma, los plug-ins que tienen instalados en el navegador navegador y todos los objetos de Javascript. También información CSS de la página en la que se está y varios movimientos táctiles o de ratón que realicemos.

Sin embargo, todas estas dudas sobre la privacidad nos llevan a un debate clásico en torno al cual giran muchas tecnologías hoy en día. ¿Hasta qué punto estamos dispuestos a sacrificar privacidad a cambio de una mayor seguridad? Posiblemente, si Google no sacase nada a cambio no estaría tan interesado en seguir innovando su tecnología, lo que a su vez haría que nuestros foros y páginas web tuvieran un poco más de spam del que tienen.

Imágenes | Google
En Genbeta | El "captcha" definitivo es el que te pone a prueba con logotipos de bandas de metal