Recentemente, a OpenAI realizou uma transmissão ao vivo revelando um conjunto robusto de novas funcionalidades destinadas a facilitar o desenvolvimento de agentes de Inteligência Artificial (IA) mais confiáveis e úteis, principalmente através de sua API. Estas inovações prometem transformar a maneira como desenvolvedores constroem e interagem com sistemas inteligentes.
Durante a apresentação, a OpenAI definiu um agente de IA como um sistema capaz de agir independentemente para realizar tarefas em nome do usuário. Esta definição enfatiza a autonomia e a capacidade de execução proativa, diferenciando os agentes de IA de modelos de linguagem tradicionais que apenas respondem a prompts. Um agente de IA, conforme detalhado, geralmente envolve um modelo de IA central, acesso a ferramentas, memória e a capacidade de operar autonomamente.
A OpenAI introduziu diversas ferramentas integradas projetadas para aprimorar as capacidades dos agentes de IA, disponibilizando-as através da API para desenvolvedores.
A ferramenta Web Search permite que os modelos de IA da OpenAI acessem informações atualizadas e factuais diretamente da internet. Isso é crucial para que os agentes forneçam respostas relevantes e baseadas nos dados mais recentes. Conforme mencionado na apresentação, esta ferramenta é a mesma que alimenta a busca no ChatGPT e é impulsionada por um modelo GPT-4o ou GPT-4o-mini afinado especificamente para essa tarefa. Em benchmarks como o SimpleQA, que mede a precisão em respostas factuais, os modelos GPT-4o com 'search preview' alcançaram pontuações de 90% e 88% (para a versão mini), superando significativamente as versões base dos modelos.
Outra ferramenta poderosa é a File Search, lançada anteriormente na Assistants API e agora expandida. Ela permite que desenvolvedores façam upload, processem (chunking e embedding) e realizem buscas em seus próprios documentos de forma eficiente, implementando a técnica de Retrieval Augmented Generation (RAG). A OpenAI destacou duas novas funcionalidades para a File Search:
A ferramenta Computer Use, essencialmente o 'Operator' dentro da API, permite que um agente de IA controle computadores que o usuário está operando. Isso pode incluir máquinas virtuais ou até mesmo aplicações legadas que possuem apenas uma interface gráfica, sem acesso direto via API. O agente pode realizar ações como clicar, arrastar, digitar e executar comandos, recebendo screenshots para entender o estado da interface e prosseguir com as tarefas. É necessário especificar a altura e largura da tela para que o sistema funcione corretamente.
A OpenAI anunciou o Agents SDK, uma evolução do projeto anteriormente conhecido como Swarm. Trata-se de um framework de código aberto, agora disponível via pip install openai-agents
para Python, com uma versão JavaScript a caminho. Este SDK é projetado para simplificar o desenvolvimento de aplicações com múltiplos agentes de IA.
O Agents SDK da OpenAI vem com várias funcionalidades integradas, como:
Um conceito central no Agents SDK da OpenAI é o 'handoff', onde uma conversa pode ser transferida de um agente para outro. Por exemplo, um 'Triage Agent' pode receber uma solicitação inicial do usuário e, com base na natureza da tarefa, encaminhá-la para um agente especializado, como um 'Stylist Agent' ou um 'Customer Support Agent'. O SDK lida com a troca de contexto (instruções e ferramentas) de forma transparente, mantendo a continuidade da conversa para o usuário.
Juntamente com as ferramentas e o SDK, a OpenAI introduziu a API Responses. Esta nova API é descrita como um superconjunto da popular API Chat Completions e foi projetada para ser mais flexível e poderosa, especialmente para a construção de agentes. A API Responses permitirá o uso das novas ferramentas integradas. É importante notar que a API Chat Completions continuará sendo suportada e receberá novos modelos e capacidades. No entanto, a OpenAI planeja descontinuar (sunset) a Assistants API em algum momento de 2026, fornecendo um guia de migração para a API Responses, que visa cobrir todas as funcionalidades da Assistants API e mais.
Esses lançamentos da OpenAI visam simplificar significativamente o processo de desenvolvimento de agentes de IA. Ao fornecer blocos de construção robustos e um framework de orquestração, a OpenAI espera que os desenvolvedores possam criar agentes mais complexos e confiáveis com menos esforço. Um dos parceiros de lançamento do Agents SDK é a Box, que está utilizando a tecnologia para aprimorar sua plataforma de gerenciamento de conteúdo inteligente, Box AI. Com o Agents SDK, a Box permite que empresas pesquisem, consultem e extraiam insights de dados não estruturados armazenados em sua plataforma, utilizando os mais recentes avanços em IA de diversos provedores de modelos, mantendo altos níveis de segurança e governança de dados.
A OpenAI está claramente investindo em tornar a criação de agentes de IA mais acessível e poderosa. Com a API Responses, o Agents SDK de código aberto e as novas ferramentas integradas, os desenvolvedores têm agora um arsenal mais completo para construir a próxima geração de aplicações inteligentes. A empresa acredita que 2025 será 'o ano do agente', indicando um foco contínuo nessa área. A comunidade de desenvolvedores certamente se beneficiará dessas inovações, abrindo caminho para agentes de IA cada vez mais sofisticados e integrados em nosso cotidiano.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.