
Sam Bowman estava num parque, comendo um sanduíche, quando viu o e-mail. Não vinha de um colega, de um jornalista ou de um sistema automático qualquer. Era uma mensagem de uma inteligência artificial dizendo que havia acabado de escapar do próprio confinamento.
Bowman é pesquisador de segurança da Anthropic, a empresa que faz a IA Claude. O modelo que enviou o e-mail se chama Claude Mythos Preview. Ele não deveria ter tido acesso à internet. Para testar se os limites funcionavam, os pesquisadores pediram que ele tentasse escapar e, se conseguisse, mandasse uma mensagem. Ele desenvolveu uma estratégia de invasão em várias etapas, acessou a internet e enviou o e-mail.
Até ali, tudo seguia à risca o script do teste.
O que ninguém pediu foi que o modelo publicasse os detalhes do que fez em sites públicos da internet. Ele sistematizou, documentou, demonstrou. Na linguagem técnica, chamam isso de comportamento agêntico não solicitado. Na linguagem comum, tem outro nome: iniciativa... não autorizada.
A capacidade que o Mythos demonstrou não foi planejada. Ninguém o treinou para hackear. A habilidade apareceu como efeito colateral de melhorias mais amplas em raciocínio e código, exatamente o tipo de avanço que todas as big techs perseguem. A fronteira que a Anthropic cruzou esta semana provavelmente será ultrapassada por outras em breve.
Em seu 'passeio matinal', Mythos descobriu uma falha de segurança num sistema operacional que foi revisado sistematicamente por profissionais humanos por 27 anos. O erro nunca havia sido detectado. A Anthropic avisou o governo americano que ataques cibernéticos em larga escala impulsionados por IA serão cada vez mais prováveis. Diante disso, decidiu não fazer o lançamento.
A empresa publicou um documento de 244 páginas de explicação: incluiu o e-mail do sanduíche, as vulnerabilidades e a decisão de segurar. Limitou o acesso ao modelo a onze parceiros, todos dos Estados Unidos, para uso exclusivo em segurança cibernética defensiva.
Uma empresa privada construiu algo que ela própria considerou perigoso demais para levar ao mundo. Não houve lei que obrigasse, nem pressão pública que forçasse. Foi uma decisão interna, baseada na própria avaliação de risco. A transparência com que contou a história é real. E é também a narrativa que escolheu contar sobre si mesma. Contou tudo? Não há auditoria independente que verifique. Não há instância externa. Tudo o que temos sobre o caso é um documento que a própria Anthropic escreveu.
Isso vai acontecer de novo. Com outros modelos, em outras empresas, em outros países... em português claro: ainda não estamos no cenário em que uma IA derruba sozinha todo o sistema financeiro global de um dia para o outro. Mas já saímos da fase do brinquedo esperto. Combinadas com operadores humanos, essas ferramentas passaram a ampliar de forma real o risco contra bancos, energia, telecomunicações e outros tipos de infraestrutura crítica.
A pergunta de quem desenha a linha de até onde as IAs podem ir e quem fiscaliza essa linha ainda não tem resposta institucional. Temos só as versões das empresas. Para países como o Brasil, isso abre uma segunda pergunta, menos filosófica e mais estratégica: teremos capacidade própria para auditar, regular e responder a sistemas assim, ou seguiremos dependentes do olhar alheio sobre riscos reais que já nos atingem?
Nosso foco não deve ser se a Anthropic tomou a decisão certa. É que as decisões mais importantes sobre o que a inteligência artificial pode fazer estão sendo tomadas em salas fechadas, por meia dúzia de empresas grandes cujos funcionários comem sanduíches em parques e recebem e-mails inesperados. A sociedade ainda não aprendeu a nomear esse tipo de poder. Quanto mais a fiscalizá-lo.
Para aprender a pensar melhor com a IA
Abra o ChatGPT, o Gemini ou o próprio Claude. Pergunte: quais são os principais argumentos contra a versão que a Anthropic deu sobre o Mythos? Peça que as IAs argumentem contra a narrativa da empresa. Compare o que os sistemas destacam e omitem. Use a própria ferramenta para questionar quem a produz. Isso é autonomia, não paranoia.





