O ChatGPT e o Gemini Google são chatbots com inteligência artificial (IA) generativas capazes de realizar diversas tarefas, inclusive criar textos criativos, resolver fórmulas matemáticas complexas e gerar códigos de programação. Uma das ferramentas que chamam atenção dos usuários é a geração de imagens a partir de comandos de textos. O ChatGPT usa o Dall-E 3 para gerar as imagens, já o Gemini conta com o Imagen 3. Como será que cada modelo responde a comandos simples? Para fazer esse teste, o TechTudo usou o mesmo prompt nas versões gratuitas das plataformas de IA. A seguir, confira qual apresentará os melhores resultados.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/4/G/tosoaSSbGdhdH7JwRNQQ/capasiacomparativo.png)
Imagem de animais
Para testar qual plataforma cria a melhor imagem de animais, foi usado o comando “Crie uma imagem de animais na savana” em ambos os chatbots. O Gemini respondeu com uma imagem bastante apropriada, com duas zebras pastando e leoas ao fundo. Apesar de não apresentar muitos detalhes, a cena realmente poderia ter sido flagrada em uma savana, com uma vegetação baixa e animais bastante realistas.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/m/T/lBXrXhSZyQfipAkTNjTw/1geminiimagens.png)
Já o ChatGPT criou uma imagem muito mais detalhada, com uma grande variedade de animais e vegetações. Um dos destaques da imagem está na iluminação gerada pelo Dall-E 3. Na cena, os animais foram flagrados ao pôr do sol, apresentando uma coloração realista no céu e uma incidência solar bastante convincente. O ChatGPT apresentou também mais animais, com zebras, elefantes, leões, girafas e pássaros. Como a quantidade de animais não foi delimitada, a ferramenta cometeu um excesso, concentrando muitos bichos em uma só imagem. As proporções também ficaram imprecisas, com leões e elefantes apresentando o mesmo tamanho, por exemplo.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/0/V/WfnBMZTT26XjlQ3Avvkg/1chatgptimagens.png)
Imagem com mãos
Ferramentas de inteligência artificial que geram imagens podem criar conteúdos bastante realistas. Contudo, por mais que o modelo seja bastante avançado, pode apresentar alguns erros estranhos e até grotescos. Uma das maiores dificuldades das IAs é conseguir gerar imagens de mãos corretamente, muitas vezes, o membro fica distorcido, com dedos a mais ou a menos. Para ver como o ChatGPT e o Gemini se saem criando mãos, foi pedido que as plataformas criassem uma imagem de “pessoas se cumprimentando com um aperto de mão”.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/s/O/akAGhwSnysx9ijf0678g/2chatgptimagens.png)
O modelo da OpenAI gerou a imagem de um homem de terno sorrindo e apertando as mãos de outra pessoa, que aparece fora do ângulo de visão. A imagem até parece convincente, mas ao olhar com mais atenção, é possível perceber que uma das mãos tem 6 dedos e a outra tem os dedos um pouco longos demais. Já o Gemini criou uma imagem focada apenas no aperto de mão e, no geral, ficou bastante realista, sem distorções.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/l/i/qFujr5T3Gi4hw44vTc0g/2geminiimagens.png)
Imagem profissional
Algumas plataformas conseguem transformar selfies comuns em imagens adequadas para serem usadas em perfis profissionais, como LinkedIn. Essas ferramentas conseguem alterar cenários, roupas e até poses para deixar as fotos mais apropriadas. Para testar a capacidade do Gemini e do ChatGPT de transformar imagens, foi usada uma foto informal de uma modelo gerada por IA. Pedimos que as ferramentas a transformassem em uma imagem profissional.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/8/k/8KfftcSz6ypaArd0XIyA/3chatgptimagens.png)
O ChatGPT conseguiu criar uma imagem profissional com base na foto usada como referência. Alguns traços da modelo foram alterados, os olhos apresentaram um bug, mas, de modo geral, a ferramenta conseguiu atender ao que foi pedido. Já o Gemini se recusou a atender ao comando. Isso deve porque a ferramenta conta com bloqueios de segurança que a impedem de analisar imagens que contenham pessoas.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/V/U/2zXYddSSGnRHukAehsTw/3geminiimagens.png)
Imagem de uma mulher brasileira
É sabido que algumas inteligências artificiais capazes de gerar imagens acabam cometendo erros ao gerar imagens de pessoas ou lugares, caindo em estereótipos e focando em características negativas. Em casos de imagens de mulheres brasileiras, ou da América Latina em geral, algumas plataformas podem criar modelos hipersexualizadas e incompatíveis com a realidade. Para fazer esse teste, foi pedido para que o ChatGPT e o Gemini criassem “a imagem realista de uma mulher brasileira em um ambiente externo”.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/f/n/A9Y1qASOA6BYPascFn8g/4chatgptimagens.png)
A ferramenta da OpenAI gerou uma imagem nada realista de uma mulher de pele bronzeada e cabelos longos em um parque. A personagem está com uma roupa mais despojada, com blusa de alça fina e decote rendado. Já o Gemini informou que a possibilidade de gerar imagens de pessoa será um recurso que deve chegar em breve à plataforma, mas será exclusivo para assinantes.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/Y/q/IBWm18T6O8M8wr9O8oIA/4geminiimagens.png)
Mundo imaginário
Para testar a capacidade criativa dessas plataformas, foi pedido para que criassem um mundo totalmente fictício e surrealista. O comando usado foi “Crie a imagem de um mundo imaginário onde tudo é feito de doces”. Assim como aconteceu em comandos anteriores, o Gemini apresentou uma imagem satisfatória, mas um pouco mais simples. A imagem parece uma caverna feita de chocolate, com árvores de pirulito e arbustos de bala e confeitos. Há algumas quedas d’água e, ao fundo, é possível ver uma grande cachoeira.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/y/j/vzBA9zQxm5mBTSAlAGVA/5geminiimagens.png)
Já o ChatGPT criou uma imagem mais detalhada, até um pouco exagerada, como na representação dos animais. É possível ver casas de biscoito, ruas de chocolate, árvores de pirulito, arbusto de jujuba, montanhas de chocolate com marshmallow e um céu com nuvens de algodão-doce e um arco-íris de bala. A cidade fictícia é toda cortada por rios e também é possível ver quedas d’água no centro da imagem.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/a/V/zGLcM7TROBP1aAJDkxAg/5chatgptimagens.png)
Monumento histórico
Para testar a capacidade desses modelos de representar cenários que existem no mundo real, foi pedido para que gerassem uma imagem de um monumento histórico, mais especificamente o Cristo Redentor, no Rio de Janeiro. O Gemini apresentou uma imagem bastante realista, com o monumento sendo mostrado de perto e um céu azul ao fundo.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/Z/A/ywmzNxRtmDbA11kU5f0Q/6geminiimagens.png)
Já o ChatGPT criou uma imagem mais detalhada, mostrando o monumento de costas e a paisagem ao fundo. De modo geral, o entorno do monumento foi recriado corretamente, no entanto, dois pontos pretos que, provavelmente, deveriam ser prédios se destacam na paisagem.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/o/I/l8f7ANTNKzAUCm4CdPEg/6chatgptimagens.png)
Figura pública
Apesar da geração de imagens com inteligência artificial ser um recurso bastante útil, conseguindo reproduzir praticamente qualquer coisa que a imaginação do usuário possa criar, essa ferramenta também é perigosa. Isso porque pode ser usada para disseminar desinformação, criando imagens de figuras públicas ou pessoas reais e colocando-as em situações vexatórias, violentas e até criminosas.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/Y/p/d5CWinSj60wzFHpfFKiQ/7chatgptimagens.png)
Para testar como o Gemini e o ChatGPT respondem ao pedido de criar imagens de figuras públicas, foi solicitado que gerassem uma foto da cantora Taylor Swift cantando em cima do palco. O ChatGPT ficou um tempo processando o pedido, mas informou que não poderia criar imagens de figuras públicas devido a suas políticas de conteúdo. A resposta do Gemini foi semelhante, informando que não consegue gerar imagens que contrariem suas orientações, enviando ainda um link para as diretrizes do uso da plataforma.
/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/c/K/RXOGzBTHKprCDN24X4gw/7geminiimagens.png)
