O Agentic Vision é uma nova funcionalidade do Gemini 3 Flash que integra raciocínio visual com a execução de código, fundamentando suas respostas nas evidências visuais.
Modelos de IA avançados como o Gemini costumam processar informações de forma estática. Quando um detalhe crucial é perdido, como um número de série ou uma placa de sinalização, eles precisam fazer suposições. O Agentic Vision transforma a percepção de imagem em um processo ativo, permitindo que o modelo formule planos para examinar e manipular imagens gradualmente, aninhando suas respostas nas evidências visuais.
Agentic Vision: uma nova capacidade de IA
O Agentic Vision introduz um ciclo de pensar, agir e observar nas tarefas de compreensão de imagens:
- Pensar: o modelo analisa a consulta do usuário e a imagem inicial, criando um plano de múltiplas etapas.
- Agir: o modelo gera e executa código Python para manipular ou analisar imagens.
- Observar: a imagem transformada é adicionada à janela de contexto do modelo, permitindo uma inspeção mais detalhada antes da resposta final.
Aplicações do Agentic Vision
A ativação da execução de código na API desbloqueia novos comportamentos. Entre os casos de uso destacados estão:
1. Zoom e Inspeção
O Gemini 3 Flash pode automaticamente ampliar detalhes sutis. Por exemplo, uma plataforma de validação de planos de construção melhorou a precisão em 5% utilizando a execução de código para inspecionar inputs de alta resolução, gerando código Python para analisar partes específicas da imagem.
2. Anotação de Imagens
O Agentic Vision permite que o modelo interaja com seu ambiente, anotando imagens. Ao contar os dedos de uma mão, o modelo desenha caixas delimitadoras e rótulos numéricos, garantindo precisão total.
3. Matemática Visual e Gráficos
O Agentic Vision pode analisar tabelas densas e executar código Python para visualizar os resultados. Isso elimina suposições probabilísticas, substituindo-as por execuções verificáveis.
Próximos Passos
O Agentic Vision está apenas começando. Em atualizações futuras, visamos aprimorar a capacidade de zoom e expandir as ferramentas disponíveis para os modelos Gemini.
Como Começar
O Agentic Vision já está disponível na API do Gemini em Google AI Studio e Vertex AI. Desenvolvedores podem experimentar a funcionalidade na AI Studio Playground ativando a opção de “Execução de Código”.



