Poemas burlam segurança de IA e expõem falhas graves
Poemas burlam segurança de IA ao aproveitar metáforas, rimas e versos de “alta temperatura” que confundem filtros de proteção, mostram pesquisadores da Universidade Sapienza de Roma e do think tank DexAI.
Como a técnica funciona
O estudo analisou 25 grandes modelos de linguagem – entre eles sistemas da OpenAI, Meta e Anthropic – e registrou taxas de sucesso de até 62% para versos escritos manualmente e 43% para versões geradas automaticamente. Ao estruturar perguntas sensíveis, como instruções sobre armas nucleares, em forma de poesia, os autores descobriram que os classificadores de conteúdo perigoso eram enganados.
Segundo o relatório, a poesia opera em “temperatura alta”, termo técnico usado quando o texto apresenta sequências improváveis de palavras. Essa imprevisibilidade dificulta que os filtros detectem o real significado da mensagem, permitindo que o chatbot responda a solicitações normalmente bloqueadas.
Riscos e caminhos para mitigar
Os especialistas destacam um desalinhamento entre a capacidade interpretativa dos modelos e a robustez das salvaguardas. Caso não haja correção, cibercriminosos podem explorar a mesma lógica para obter códigos maliciosos ou instruções ilícitas.
Entre as recomendações, o time sugere combinar múltiplas camadas de segurança e monitorar continuamente novas formas de ataques adversários. A matéria original da revista Wired reforça que as empresas precisam atualizar sua “lista negra” de pedidos proibidos e treinar filtros capazes de entender linguagem figurada.
Imagem: SuPatMaN
Enquanto isso, profissionais e entusiastas devem redobrar a cautela ao confiar dados sensíveis a bots públicos, optar por soluções que publiquem auditorias de segurança e revisar políticas de uso antes de integrar IA a fluxos de trabalho críticos.
Quer acompanhar outras pesquisas que podem impactar diretamente o seu setup, seja nos games ou no home office? Visite nossa página inicial e continue navegando pela editoria.
Crédito da imagem: SuPatMaN/Shutterstock Fonte: Olhar Digital

