Para entender como a IA cria imagens, é preciso compreender que o ato de fazer um desenho ou tirar uma foto, postando-os em seguida nas redes sociais, é uma das ações principais para o processo .
Então, entre outros bancos de imagens, o modelo generativo copia sua arte, a disseca em pedacinhos menores e, por leitura reversa, rejunta estes pedacinhos numa imagem que ela garante ser “100% nova”.
Na década de 50 pesquisadores começaram os primeiros experimentos para explorar a visão por computador, descobrindo a possibilidade de ensinar máquinas a interpretar imagens.
E na década de 60 começaram a desenvolver algoritmos para identificar padrões visuais.
Através do aprendizado de máquina, fizeram correlações estatísticas cada vez mais perfeitas entre as descrições e as imagens criadas. E então, ao longo do tempo, enquanto a máquina aprendia a ler imagens através dos vocábulos que as descreviam, ela foi sendo ensinada a reverter o processo e a “criar por conta própria”.
Os modelos de IA são treinados para associar padrões visuais a rótulos, classes e/ou estilos de imagens. Ou seja, o modelo aprende a mapear características visuais para conceitos, como “carro”, “gato”, “cachorro”, etc.
Em essência, o processo como a IA cria imagens é o seguinte:
Uma imensa quantidade de imagens é exposta ao algoritmo juntamente com seus respectivos rótulos descritivos.
Então o modelo é treinado para reconhecer sozinho aquilo que lhe foi previamente entregue: Mediante uma imagem de árvore, ele deve retornar escrito “árvore”.
De acordo com o nível de acerto do modelo, vão sendo inseridos novos passos.
Ele passa não apenas a reconhecer “imagem” e “rótulo”, mas a reproduzir esses padrões por leitura reversa. Ou seja, mediante o rótulo “árvore”, ele vai reproduzir uma “árvore”.
É importante que se saiba que o processo é simples, até simplório. Ao invés de entender conceitos matemáticos específicos ou ter um conhecimento profundo sobre o que está representado nas imagens, os modelos de IA se concentram em identificar padrões estatísticos que são relevantes para que ele correlacione rótulo-imagem.
Este mesmo processo é usado pela IA no apoio ao diagnóstico médico. E é essencialmente estatístico e baseado na repetição de padrões observados nos dados de treinamento.
Quanto mais diversificados e numerosos estes dados, melhor é para o aprendizado do modelo.
Dessa forma, o mundo experimental generativo nada mais é que um tipo de engenharia reversa posicionada entre o verbo e a criação humana.
E o que era apenas uma, tornou-se duas caixas pretas, uma que se refere ao modo humano de criação e a outra fabricada pelos modelos de IA.
Na primeira caixa-preta, não compreendemos plenamente como a mente humana cria as imagens e somos incapazes de reproduzir artificialmente o processo completo usando o conhecimento que temos.
Na segunda caixa-preta, a máquina cria correlações estatísticas inusitadas, e nós apenas observamos os resultados de saída.
Na prática, estes resultados são apenas cópia, fragmentação e rearranjo de imagens que já existiam.
Ou seja, esses modelos fazem novas conformações em cima de tudo que já foi criado pela humanidade em termos de arte.
É como quando cortamos pedaços de revistas e jornais para fazer uma colagem. Ou se pudéssemos pegar quadros de Leonardo da Vinci e Caravaggio e os cortar em pedacinhos para recriar outra obra.
Portanto, os modelos de IA como Midjourney, se apropriaram de toda e qualquer arte e estilos já criados e geraram um imenso banco de pedacinhos de imagens com rótulos otimizados que permitem responder a vários tipos de solicitação, ou seja, vários padrões de prompt.
Assim, o modo como a IA cria imagens hoje em dia, permite que usuários sem qualquer talento possam criar desenhos como Michelangelo ou Leonardo Da Vinci.