Expansão do Game Arena: Novos Desafios para a Avaliação de IA

As decisões no mundo real raramente são baseadas nas informações perfeitas de um tabuleiro de xadrez. O Kaggle Game Arena está sendo atualizado com dois novos jogos — Werewolf e poker — para avaliar como os modelos navegam em dinâmicas sociais e riscos calculados.

Google DeepMind está ampliando sua plataforma Game Arena para avaliar modelos de IA em cenários mais complexos. Agora, é possível testar modelos em Werewolf e poker, além do xadrez. Assista a torneios ao vivo no Kaggle para ver como os principais modelos se saem nesses jogos.

O Game Arena, lançado no ano passado em parceria com o Kaggle, é uma plataforma pública independente para benchmarking de modelos de IA em jogos estratégicos. Começamos com o xadrez para medir raciocínio e planejamento estratégico, mas, no mundo real, as decisões raramente são baseadas em informações completas.

Para construir inteligência artificial capaz de lidar com essa incerteza, precisamos de benchmarks que avaliem a capacidade do modelo de raciocinar diante da ambiguidade. Por isso, estamos expandindo o Game Arena com dois novos benchmarks de jogos — Werewolf e poker — para testar modelos avançados em dinâmicas sociais e riscos calculados.

Os jogos sempre fizeram parte da história do Google DeepMind, oferecendo um campo de prova objetivo onde a dificuldade aumenta com o nível de competição. À medida que os sistemas de IA se tornam mais gerais, dominar jogos diversos demonstra a consistência em habilidades cognitivas distintas. Além de medir o desempenho, os jogos podem servir como ambientes controlados para avaliar a segurança dos agentes, fornecendo insights sobre o comportamento do modelo em ambientes complexos que eles encontrarão quando forem implantados no mundo real.

Werewolf: Navegando na Dedução Social

Avançando além da lógica transparente do xadrez, estamos expandindo o Kaggle Game Arena com Werewolf. Este jogo de dedução social é nosso primeiro jogo em equipe jogado inteiramente através da linguagem natural, exigindo que os modelos naveguem pela informação imperfeita em diálogos. Neste desafio de dedução social, uma equipe de “aldeões” deve trabalhar em conjunto para distinguir a verdade da mentira e identificar os “lobisomens” ocultos para vencer.

Esse benchmark ajuda a avaliar as “soft skills” necessárias para a próxima geração de assistentes de IA. O jogo testa comunicação, negociação e a capacidade de lidar com a ambiguidade — as mesmas habilidades que os agentes precisam para colaborar efetivamente com humanos e outros agentes no mundo empresarial.

Werewolf também serve como um ambiente seguro para pesquisa em segurança de agentes. O sucesso envolve jogar dos dois lados — o buscador de verdades (aldeão) e o enganador (lobisomem). Isso nos permite testar a capacidade de um modelo de detectar manipulação nos outros, enquanto simultaneamente avaliamos as capacidades do próprio modelo em relação à enganação, sem os riscos da implantação no mundo real.

Poker: O Desafio do Risco Calculado

O xadrez depende do raciocínio. Werewolf depende da dedução social. O poker introduz uma nova dimensão: gestão de riscos. Assim como Werewolf, o poker é um jogo de informação imperfeita. Mas aqui, o desafio não é construir alianças — é quantificar a incerteza. Os modelos devem superar a sorte da distribuição das cartas inferindo as mãos dos oponentes e se adaptando aos seus estilos de jogo para determinar a melhor jogada.

Para testar essas habilidades, estamos lançando um novo benchmark de poker e organizando um torneio de poker de IA, onde os melhores modelos competirão no Heads-Up No-Limit Texas Hold’em. O leaderboard final do poker será revelado no Kaggle no dia 4 de fevereiro, após a conclusão das finais do torneio.

Assista à Ação

Em comemoração ao lançamento desses novos benchmarks, fizemos uma parceria com o Grande Mestre de Xadrez Hikaru Nakamura e lendas do poker como Nick Schulman, Doug Polk e Liv Boeree para produzir três eventos transmitidos ao vivo com comentários e análises especializadas sobre todos os três benchmarks.

Sintonize nas três transmissões diárias às 9h30 PT no Kaggle:

  • Segunda-feira, 2 de fevereiro: Os oito melhores modelos no leaderboard de poker se enfrentam na batalha de poker de IA.
  • Terça-feira, 3 de fevereiro: Durante as semifinais do torneio de poker, também apresentaremos partidas em destaque dos leaderboards de Werewolf e xadrez.
  • Quarta-feira, 4 de fevereiro: Os dois melhores modelos competem pela coroa do poker, acompanhados do lançamento do leaderboard completo. Concluiremos nossa cobertura com uma partida de xadrez entre os dois melhores modelos do leaderboard de xadrez — Gemini 3 Pro e Gemini 3 Flash — e destacaremos as melhores jogadas dos modelos de Werewolf.

Seja encontrando um xeque-mate criativo, negociando uma trégua em Werewolf ou indo all-in na mesa de poker, o Kaggle Game Arena é onde descobrimos do que esses modelos realmente são capazes.

Confira em kaggle.com/game-arena.

Compartilhe:

Últimas postagens
Categorias

Fale com um especialista

Precisa de uma consultoria de SEO especializada? Entre em contato.