No momento, você está visualizando Seu rosto, CPF e currículo podem estar alimentando IAs; entenda
Seu rosto, CPF e currículo podem estar alimentando IAs, formando bilhões de imagens coletadas automaticamente da internet. Foto: Shutterstock

Seu rosto, CPF e currículo podem estar alimentando IAs; entenda

Seu rosto, seu CPF, e seu currículo podem estar sendo usados por IAs, segundo nova pesquisa – e aposto que você nem sabia

Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo CPF, cartões de crédito, certidões de nascimento e currículo estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAS) capazes de gerar imagens realistas.

O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados. Carteiras de motorista. E fotos de pessoas identificáveis.

Em alguns casos, o conteúdo incluía dados ainda mais sensíveisMais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Todavia, segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.

Um oceano de dados livres e perigosos para as IAs usarem

  • Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;
  • Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;
  • O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
  • Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.

Segundo os pesquisadores, mais de duas milhões de pessoas já baixaram o CommonPool desde seu lançamento. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.

Privacidade em risco e leis de IAs ainda no século passado

A comunidade de inteligência artificial também recebe um alerta direto do estudo: ela deve repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes. Embora essas mesmas leis ainda apresentem muitas brechas.

Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada. O que faz com que os direitos de privacidade variem de acordo com a região.

Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.

Em conclusão, o problema é que esse conceito de “informação pública” pode ser enganoso. Todavia, segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres. Mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.

Fonte: olhar digital