
🚨 Últimas noticias : OpenAI ha lanzado Operator , un agente impulsado por IA que puede usar su propio navegador para realizar tareas por ti. Actualmente, solo está disponible para usuarios Pro en EE. UU., pero pronto estará disponible a nivel mundial. 🌍
Genial, ¿verdad? Pero esperen un momento: ¿estamos seguros de que los sitios web no se opondrán? 🤔 ¿ La tecnología antibots actual, como las prohibiciones de IP, las huellas digitales del navegador, las huellas digitales TLS y, por supuesto, los CAPTCHA, seguirán el ritmo de la nueva herramienta de OpenAI?
Entonces, ¿quién está ganando realmente en esta batalla entre los robots automatizados complejos y las defensas antibots? ¡Siga leyendo para descubrirlo! 🔥
Cuando los modelos LLM llegaron por primera vez al mercado, fue una auténtica revolución. La forma en que abordamos las tareas cotidianas en el trabajo cambió para siempre, el mercado de valores reaccionó con entusiasmo 🚀 y todos se subieron al tren de la IA (aunque todavía no había IA real detrás de la mayoría de los productos en línea).
Como siempre, el entusiasmo inicial finalmente se desvaneció y comenzaron a surgir algunas preguntas importantes. No es necesario ser un ingeniero de aprendizaje automático o un gran maestro de Kaggle (por cierto, ¡ también podemos encontrarnos allí ! 😉) para saber que los LLM no funcionan con magia 🧙— necesitan toneladas de datos para ser entrenados .
Entonces, ¿de dónde provienen todos esos datos? La respuesta es sencilla: ¡de la Web! 🌍
La Web es la mayor fuente de datos del planeta, por lo que no sorprende que empresas como OpenAI hayan estado explorando Internet durante años para recopilar los datos necesarios para entrenar su tecnología innovadora. Y mientras el rastreo web se haga de manera ética, no hay nada de malo en eso 🤷.
Consejo profesional : profundice en ese tema leyendo nuestro artículo sobre cómo mantener la ética y la legalidad en la era del web scraping con inteligencia artificial .
Pero aquí está el truco: ¡a la mayoría de los propietarios de sitios no les entusiasma que las empresas de IA utilicen sus datos! 😠
Al fin y al cabo, los datos equivalen a dinero 💰. Han pasado ya varios años desde que The Economist publicó el artículo “ El recurso más valioso del mundo ya no es el petróleo, sino los datos ”. Así que, sinceramente, no hace falta explicarlo más.
En resumen, regalar tus datos de forma gratuita es básicamente lo mismo que dar dinero en efectivo 💸. No es de extrañar que los propietarios de sitios web, especialmente las grandes empresas, no estén tan entusiasmados con eso. 😅
Ahora que el panorama está evolucionando y nuevos operadores y herramientas de IA están entrando en escena, los sitios web pueden comenzar a sentirse realmente descontentos con ello. 😬
En su artículo sobre cómo funciona Operator , OpenAI compartió:
“Operator funciona con un nuevo modelo llamado Computer-Using Agent (CUA). Al combinar las capacidades de visión de GPT-4 con el razonamiento avanzado a través del aprendizaje de refuerzo, CUA está capacitado para interactuar con interfaces gráficas de usuario (GUI), es decir, los botones, menús y campos de texto que las personas ven en una pantalla”.
Está claro que, si bien las empresas de inteligencia artificial como OpenAI ya han creado robots de extracción de datos para recopilar datos de fuentes populares y entrenar sus modelos, ahora están brindando a los usuarios una herramienta que puede interactuar y navegar por sitios web "mágicamente". ¡Eso es emocionante y aterrador a la vez! 😱
Vea el Operador de OpenAI en acción en el video de presentación:
Nuevamente, del artículo de presentación oficial:
“El operador puede “ver” (a través de capturas de pantalla) e “interactuar” (utilizando todas las acciones que permiten un mouse y un teclado) con un navegador, lo que le permite realizar acciones en la web sin requerir integraciones API personalizadas.
Si encuentra desafíos o comete errores, Operator puede aprovechar sus capacidades de razonamiento para autocorregirse. Cuando se traba y necesita ayuda, simplemente devuelve el control al usuario, lo que garantiza una experiencia fluida y colaborativa”.
Eso es increíblemente prometedor, pero también plantea algunas preocupaciones serias. 🤔 ¿Qué pasa si los usuarios comienzan a abusar de Operator con fines maliciosos? Todos estamos hartos de los bots (como esos comentarios spam que inundan YouTube) y esto podría convertirse rápidamente en un problema importante. ⚠️
Suponiendo que OpenAI logre evitar que Operator realice acciones dañinas o no deseadas (tal como han trabajado para evitar que ChatGPT responda preguntas peligrosas), ¿podemos estar realmente seguros de que la mayoría de los sitios web darán la bienvenida a este tipo de interacción nueva, automatizada y potenciada por IA? 🤖
Antes de sumergirnos en la gran pregunta que dejamos abierta, aclaremos primero con qué tipo de interacciones estamos lidiando. Al fin y al cabo, si estos nuevos operadores de IA no son tan eficaces como pensamos, ¿por qué deberíamos molestarnos en protegernos de ellos en primer lugar? 👀
Los antibots no son ninguna broma. Empresas como Cloudflare, un proveedor líder de WAF ( Web Application Firewall ), conocido por sus potentes soluciones antibots , gastan millones de dólares cada año en investigación y desarrollo para mantenerse a la vanguardia . 🤑
Actualmente, solo los usuarios de EE. UU. que pagan $200 al mes por el nivel de suscripción más alto de ChatGPT Pro pueden acceder a Operator de OpenAI , por lo que no todos han tenido la oportunidad de probarlo. Pero, ¿y para aquellos que sí lo han hecho? ¡Los resultados son impresionantes! 🤯
Los primeros usuarios y revisores tecnológicos descubrieron que OpenAI era increíble para automatizar tareas cotidianas como:
¿Cómo es posible? El operador abre una pequeña ventana del navegador y completa tareas según las indicaciones de texto, tal como lo haría un usuario normal:
Por supuesto, el producto todavía está en la etapa de “vista previa de investigación” y no es perfecto. De vez en cuando, tendrás que darle un empujoncito o rescatarlo de un bucle de intentos fallidos.
Si bien algunos usuarios de Reddit han expresado quejas (especialmente considerando el alto precio), no se puede negar que esta tecnología ya es extraordinaria , incluso en esta etapa. ¡Obsérvela mientras reserva un vuelo , por ejemplo!
➡️ La verdadera pregunta ahora es: ¿los sitios web aceptarán la automatización impulsada por IA o se opondrán a ella? Y si lo hacen, ¿cómo? ⚔️
Las soluciones anti-bots y anti-scraping no son nada nuevo: muchos sitios las han estado usando durante años para protegerse contra scripts automatizados que extraen datos e interactúan con sus páginas. 🚫
Si tienes curiosidad acerca de estos métodos, consulta nuestro seminario web sobre técnicas anti-bot avanzadas:
Como probablemente ya sepas, especialmente si has seguido nuestra serie sobre web scraping avanzado , estamos hablando de:
Limitadores de velocidad : herramientas que restringen la cantidad de solicitudes de un usuario en un tiempo determinado para evitar la sobrecarga. Funcionan mediante el bloqueo de IPs .
Huella digital TLS : un método que rastrea las características únicas de la conexión cifrada de un navegador para identificar bots. Explore el papel de la huella digital TLS en el web scraping .
Huella digital del navegador : una técnica para detectar atributos únicos del dispositivo o navegador para identificar herramientas automatizadas.
Estas defensas iniciales se centran en bloquear las solicitudes de herramientas automatizadas (como los operadores de IA) incluso antes de que tengan la oportunidad de acceder al sitio 🛡️.
Si esas defensas fallan, entran en juego otras técnicas. ¿Algunos ejemplos? Análisis del comportamiento del usuario,desafíos de JavaScript y CAPTCHA.
Los CAPTCHA son particularmente efectivos porque están diseñados para que los humanos los resuelvan fácilmente, pero son difíciles de descifrar para los bots.
Pero, a medida que la IA se vuelve más inteligente y comienza a pensar más como los humanos, reconocer a los bots se vuelve cada vez más difícil. Por eso, se están barajando algunas ideas descabelladas, como usar videojuegos como CAPTCHA . 🎮
Pero la verdadera pregunta es: ¿son los CAPTCHA la solución definitiva contra los operadores de IA? ¡Vamos a investigar y descubrirlo! 💡
TL;DR : No, en realidad no… 🙅♂️
Desde que OpenAI Operator llegó al mercado para pruebas, los usuarios lo han estado utilizando para completar tareas que involucran CAPTCHAs (iniciar sesión en redes sociales, completar formularios y más).
Pero como se señala en la página de presentación del Agente que utiliza computadoras de OpenAI, aún se requiere intervención humana:
“Si bien maneja la mayoría de los pasos de forma automática, CUA busca la confirmación del usuario para acciones sensibles, como ingresar datos de inicio de sesión o responder formularios CAPTCHA”.
Claro, a veces el motor de razonamiento de la IA puede burlar un CAPTCHA 🥷, pero la mayoría de las veces, falla miserablemente , con resultados que son tan divertidos como frustrantes. Cuando se pone a prueba en Reddit, Google Maps, Amazon y G2 , las protecciones antibots lo bloquean repetidamente.
Ver a operadores de IA fallar y fracasar en los CAPTCHA se ha convertido en una tendencia viral. Los videos de estas herramientas de IA que intentan abrirse paso a tientas con los intentos de inicio de sesión inundan Reddit y X:
Otros revisores tecnológicos confirman la misma frustración: el operador OpenAI queda bloqueado por la mayoría de los CAPTCHA .
Por un lado, esto es tranquilizador: los CAPTCHA están haciendo su trabajo y evitando que los bots automatizados causen estragos. Por otro lado, estamos en un juego del gato y el ratón 🐁 🐈. La tecnología antibots y los operadores de IA seguirán evolucionando y se turnarán para estar un paso por delante.
¿Los verdaderos perdedores? ¡Los usuarios comunes! Es probable que más sitios implementen CAPTCHAs, lo que hará que la navegación sea más complicada para todos. Y seamos honestos: todos odiamos los CAPTCHAs. 😩
Esta batalla no solo afecta a los operadores de IA: los web scrapers éticos también se ven atrapados en el fuego cruzado. A medida que los sitios web intensifican las medidas antibots, los scripts legítimos de scraping serán bloqueados injustamente, lo que dificultará la extracción de datos para investigadores, empresas y desarrolladores .
Afortunadamente, existe una mejor manera de interactuar con sitios de forma programática sin tener que lidiar con CAPTCHAS y otras pesadillas anti-bot: ¡Scraping Browser !
OpenAI Operator automatiza los navegadores comunes al igual que otras herramientas de automatización de navegadores. Pero la cuestión es que la mayoría de las tecnologías antibots, incluidos los CAPTCHA, no aparecen debido a la automatización en sí, sino debido a la configuración del navegador .
La mayoría de las bibliotecas de automatización de navegadores configuran los navegadores de manera que los expongan como automatizados, lo que frustra por completo el propósito de usar un navegador "normal". Ahí es donde intervienen los sistemas antibots y bloquean el acceso. 🚫
En lugar de centrarse en si la IA puede evitar los CAPTCHA, el verdadero cambio es utilizar el navegador adecuado: uno optimizado para el scraping y la automatización . Ahí es exactamente donde entra en juego el Scraping Browser de Bright Data , repleto de:
Huellas digitales TLS confiables para evitar la detección
Escalabilidad ilimitada para extracción de datos a gran escala
Rotación de IP incorporada impulsada por una red proxy de 72 millones de IP
Reintentos automáticos para gestionar solicitudes fallidas
Superpoderes para resolver CAPTCHA que superan a los operadores de IA 🧠
No es ninguna sorpresa: el solucionador de CAPTCHA integrado de Scraping Browser es mucho más eficaz que el operador de OpenAI. ¿Por qué? Porque está respaldado por años de desarrollo del mismo equipo que manejó las recientes interrupciones de datos de SEO en minutos . ⚡
El solucionador CAPTCHA de Bright Data ha demostrado ser exitoso en:
No solo reduce las posibilidades de que aparezcan CAPTCHAs , sino que cuando aparecen, los resuelve sin esfuerzo . 🔥
Scraping Browser funciona con todos los principales marcos de automatización de navegadores, incluidos Playwright, Puppeteer y Selenium. Por lo tanto, ya sea que desee un control programático completo o incluso agregar lógica de IA , está cubierto.
Vea el Scraping Browser de Bright Data en acción:
Entonces… ¿deberíamos seguir obligando a la IA a resolver los CAPTCHA o simplemente usar una herramienta que funcione? La elección es obvia: el scraping del navegador, ¡por Dios! 🏆
El operador de OpenAI llegó para revolucionar la interacción web, pero no es todopoderoso. Si bien es impresionante, aún tiene problemas con los CAPTCHA y se bloquea.
Evite las molestias con Scraping Browser, que cuenta con un solucionador de CAPTCHA integrado para una automatización perfecta. ¡Embárquese en nuestra misión para democratizar la Web, garantizando que siga siendo accesible para todos, en todas partes, incluso a través de scripts automatizados!
¡Hasta la próxima, seguid explorando Internet libremente y sin CAPTCHAs!