A OpenAI continua a expandir as fronteiras da inteligência artificial com o lançamento de funcionalidades cada vez mais impressionantes. Uma das mais recentes e promissoras é o modo "Operator" do ChatGPT, uma ferramenta que permite à IA interagir diretamente com navegadores web para executar tarefas complexas. Um vídeo recente explorou as capacidades desta ferramenta, testando seus limites ao executar múltiplas tarefas simultaneamente, revelando tanto seu potencial extraordinário quanto suas atuais limitações.
O ChatGPT Operator é uma funcionalidade avançada, disponível mediante uma assinatura de aproximadamente 200 dólares mensais, que transforma o ChatGPT em um assistente virtual capaz de navegar na internet, preencher formulários, extrair dados e realizar uma miríade de outras ações que normalmente exigiriam intervenção humana. Essencialmente, ele opera como um "agente" que pode controlar um navegador para completar objetivos definidos pelo usuário através de prompts.
A principal investigação apresentada no vídeo foi a capacidade do ChatGPT Operator de lidar com múltiplas tarefas concorrentes. O apresentador configurou inicialmente seis, e depois expandiu para dez, diferentes prompts em abas separadas do navegador, todas executando simultaneamente. Essa abordagem de "stress test" buscou identificar o quão longe a IA poderia ser levada.
As tarefas atribuídas ao Operator foram diversas, simulando casos de uso reais e complexos:
A performance do ChatGPT Operator foi um misto de feitos impressionantes e algumas dificuldades esperadas para uma tecnologia em desenvolvimento.
Um dos momentos mais surpreendentes foi a capacidade do Operator de resolver CAPTCHAs em sites como Amazon e Skiplagged. Inicialmente, em testes anteriores, a IA havia negado essa capacidade, mas com instruções mais diretas, como "diga o que o CAPTCHA diz", ela conseguiu superá-los. Isso demonstra uma capacidade de interpretação e interação visual notável.
Outro sucesso foi a realização de pesquisa reversa de imagens. Após uma tentativa inicial frustrada, onde o Operator alegou não poder realizar a tarefa, o usuário o instruiu a ir diretamente ao Google Images e executar a busca, o que foi feito com sucesso. Isso sugere que a IA pode, por vezes, ter "limitações autoimpostas" que podem ser contornadas com prompts mais específicos.
A extração e organização de dados em Google Sheets também foi um ponto alto. O Operator conseguiu coletar informações de listagens do Airbnb, voos e contatos da Câmara de Comércio, inserindo-os corretamente nas planilhas designadas, inclusive criando novas abas e nomeando-as conforme solicitado.
Apesar dos sucessos, algumas limitações foram evidentes. O Operator enfrentou rate limiting, uma restrição que limita o número de conversas ativas simultaneamente (aparentemente seis no momento do teste). Isso exigiu que o apresentador encerrasse algumas tarefas para iniciar outras.
A necessidade de login em contas pessoais (Facebook, Instagram, Amazon, Gmail) foi um obstáculo em várias tarefas. Embora o Operator pudesse navegar até as páginas de login, ele dependia do usuário para inserir as credenciais. Em alguns casos, como no Facebook e Instagram, a IA precisava que o usuário ficasse na aba para monitorar a atividade devido a dados sensíveis.
Houve também dificuldades com a interação em sites específicos. Por exemplo, ao tentar encontrar YouTube Shorts, o Operator encontrou o site indisponível, mesmo que estivesse acessível para o usuário. Da mesma forma, ao tentar extrair e-mails da Câmara de Comércio, a IA encontrou dificuldades com formulários de contato, preferindo sites que publicavam diretamente os endereços de e-mail.
A "teimosia" ou "esquecimento" da IA também foi notada. Em algumas instâncias, como na pesquisa de produtos no Etsy, ela encontrou um "blank tab issue" e precisou ser lembrada do que já havia sido visto para prosseguir.
Uma das tarefas mais intrigantes foi instruir o ChatGPT Operator a usar o próprio ChatGPT para elaborar um plano de negócios. O Operator conseguiu logar na interface do ChatGPT (após o usuário fornecer as credenciais) e submeter o prompt detalhado. O resultado foi a geração de um plano de negócios bastante completo dentro da interface do ChatGPT, acessível ao usuário. Isso abre um leque de possibilidades para meta-automação, onde a IA delega partes de uma tarefa para outra instância de si mesma ou para outras IAs.
A demonstração do ChatGPT Operator, mesmo com suas falhas e necessidade de "finagling" por parte do usuário, é um vislumbre poderoso do futuro da automação de tarefas. A capacidade de interagir com a web de forma tão dinâmica, abrindo múltiplas abas, extraindo informações, preenchendo planilhas e até mesmo resolvendo CAPTCHAs, sugere uma ferramenta com potencial para substituir ou aumentar significativamente a produtividade de assistentes virtuais humanos.
Do ponto de vista de Expertise, Authoritativeness, and Trustworthiness (E-E-A-T), o ChatGPT Operator demonstra uma crescente expertise em tarefas de navegação e extração de dados. Sua autoridade ainda está sendo construída, pois depende da confiabilidade dos sites que acessa e da precisão de seus algoritmos de interpretação. A confiabilidade (Trustworthiness) é um ponto crucial, especialmente em relação ao manuseio de dados sensíveis e à precisão das informações coletadas. À medida que a tecnologia evolui e se torna mais robusta e menos propensa a erros, sua utilidade e confiabilidade tendem a aumentar exponencialmente.
A capacidade de realizar dezenas de tarefas simultaneamente, mesmo que algumas exijam ajustes ou intervenções, já representa uma economia de tempo considerável. O apresentador do vídeo conclui que, mesmo no estado atual, o ChatGPT Operator já vale o investimento para quem busca automatizar processos complexos e repetitivos.
O teste extensivo do ChatGPT Operator revela uma ferramenta de inteligência artificial com um potencial transformador. Sua capacidade de multitarefa, interação com websites e até mesmo de utilizar outras IAs para completar objetivos é impressionante. Embora ainda existam limitações, como a necessidade de login e ocasionais glitches, a direção é clara: estamos caminhando para uma era onde assistentes de IA poderão realizar uma vasta gama de tarefas online de forma autônoma ou semi-autônoma, redefinindo a produtividade e a forma como interagimos com o mundo digital. O desenvolvimento contínuo dessa tecnologia pela OpenAI certamente trará avanços ainda mais surpreendentes no futuro próximo.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore como o OpenAI Operator, uma nova ferramenta de IA, está sendo testado para automatizar um modelo de negócio de remoção de pianos gratuitos no Facebook Marketplace, desde a busca até o contato com vendedores e registro em planilhas.