Revolucionando a Visão Computacional: Conheça o Agentic Vision do Gemini 3 Flash

O Agentic Vision é uma nova funcionalidade do Gemini 3 Flash que integra raciocínio visual com a execução de código, fundamentando suas respostas nas evidências visuais.

Modelos de IA avançados como o Gemini costumam processar informações de forma estática. Quando um detalhe crucial é perdido, como um número de série ou uma placa de sinalização, eles precisam fazer suposições. O Agentic Vision transforma a percepção de imagem em um processo ativo, permitindo que o modelo formule planos para examinar e manipular imagens gradualmente, aninhando suas respostas nas evidências visuais.

Agentic Vision: uma nova capacidade de IA

O Agentic Vision introduz um ciclo de pensar, agir e observar nas tarefas de compreensão de imagens:

  • Pensar: o modelo analisa a consulta do usuário e a imagem inicial, criando um plano de múltiplas etapas.
  • Agir: o modelo gera e executa código Python para manipular ou analisar imagens.
  • Observar: a imagem transformada é adicionada à janela de contexto do modelo, permitindo uma inspeção mais detalhada antes da resposta final.

Aplicações do Agentic Vision

A ativação da execução de código na API desbloqueia novos comportamentos. Entre os casos de uso destacados estão:

1. Zoom e Inspeção

O Gemini 3 Flash pode automaticamente ampliar detalhes sutis. Por exemplo, uma plataforma de validação de planos de construção melhorou a precisão em 5% utilizando a execução de código para inspecionar inputs de alta resolução, gerando código Python para analisar partes específicas da imagem.

2. Anotação de Imagens

O Agentic Vision permite que o modelo interaja com seu ambiente, anotando imagens. Ao contar os dedos de uma mão, o modelo desenha caixas delimitadoras e rótulos numéricos, garantindo precisão total.

3. Matemática Visual e Gráficos

O Agentic Vision pode analisar tabelas densas e executar código Python para visualizar os resultados. Isso elimina suposições probabilísticas, substituindo-as por execuções verificáveis.

Próximos Passos

O Agentic Vision está apenas começando. Em atualizações futuras, visamos aprimorar a capacidade de zoom e expandir as ferramentas disponíveis para os modelos Gemini.

Como Começar

O Agentic Vision já está disponível na API do Gemini em Google AI Studio e Vertex AI. Desenvolvedores podem experimentar a funcionalidade na AI Studio Playground ativando a opção de “Execução de Código”.

Compartilhe:

Últimas postagens
Categorias

Fale com um especialista

Precisa de uma consultoria de SEO especializada? Entre em contato.