Revolucionando a Visão Computacional: Conheça o Agentic Vision do Gemini 3 Flash

Portal de SEO PDS

27/01/2026

O Agentic Vision é uma nova funcionalidade do Gemini 3 Flash que integra raciocínio visual com a execução de código, fundamentando suas respostas nas evidências visuais.

Modelos de IA avançados como o Gemini costumam processar informações de forma estática. Quando um detalhe crucial é perdido, como um número de série ou uma placa de sinalização, eles precisam fazer suposições. O Agentic Vision transforma a percepção de imagem em um processo ativo, permitindo que o modelo formule planos para examinar e manipular imagens gradualmente, aninhando suas respostas nas evidências visuais.

Agentic Vision: uma nova capacidade de IA

O Agentic Vision introduz um ciclo de pensar, agir e observar nas tarefas de compreensão de imagens:

Pensar: o modelo analisa a consulta do usuário e a imagem inicial, criando um plano de múltiplas etapas.
Agir: o modelo gera e executa código Python para manipular ou analisar imagens.
Observar: a imagem transformada é adicionada à janela de contexto do modelo, permitindo uma inspeção mais detalhada antes da resposta final.

Aplicações do Agentic Vision

A ativação da execução de código na API desbloqueia novos comportamentos. Entre os casos de uso destacados estão:

1. Zoom e Inspeção

O Gemini 3 Flash pode automaticamente ampliar detalhes sutis. Por exemplo, uma plataforma de validação de planos de construção melhorou a precisão em 5% utilizando a execução de código para inspecionar inputs de alta resolução, gerando código Python para analisar partes específicas da imagem.

2. Anotação de Imagens

O Agentic Vision permite que o modelo interaja com seu ambiente, anotando imagens. Ao contar os dedos de uma mão, o modelo desenha caixas delimitadoras e rótulos numéricos, garantindo precisão total.

3. Matemática Visual e Gráficos

O Agentic Vision pode analisar tabelas densas e executar código Python para visualizar os resultados. Isso elimina suposições probabilísticas, substituindo-as por execuções verificáveis.

Próximos Passos

O Agentic Vision está apenas começando. Em atualizações futuras, visamos aprimorar a capacidade de zoom e expandir as ferramentas disponíveis para os modelos Gemini.

Como Começar

O Agentic Vision já está disponível na API do Gemini em Google AI Studio e Vertex AI. Desenvolvedores podem experimentar a funcionalidade na AI Studio Playground ativando a opção de “Execução de Código”.

Revolucionando a Visão Computacional: Conheça o Agentic Vision do Gemini 3 Flash

Agentic Vision: uma nova capacidade de IA

Aplicações do Agentic Vision

1. Zoom e Inspeção

2. Anotação de Imagens

3. Matemática Visual e Gráficos

Próximos Passos

Como Começar

Compartilhe:

Clube de SEO

Grupo de Whatsapp para tirar dúvidas de SEO

Descubra 6 Dicas para Criar Música com Lyria 3 no Aplicativo Gemini

Google oferece treinamento em IA para todos os 6 milhões de educadores dos EUA

Novos Recursos do Chrome para Aumentar sua Produtividade

Desenvolva Habilidades Práticas em IA com o Novo Certificado Profissional do Google

Fale com um especialista

© 2025 - Portal de SEO - Todos os Direitos Reservados