Na sexta-feira (29), a OpenAI revelou seus mais recentes avanços com uma nova ferramenta de inteligência artificial capaz de reproduzir a voz de alguém com apenas 15 segundos de amostra. Após ter se destacado no campo da IA com projetos como o ChatGPT, DALL-E e Sora, a empresa dos Estados Unidos compartilhou detalhes sobre o “Voice Engine”.
Curta, siga e se inscreva nas nossas redes sociais:
Facebook | Twitter | Instagram | YouTube | Koo
Sugira uma reportagem. Mande uma mensagem para o nosso WhatsApp.
Entre no canal do Revista Cariri no Telegram e veja as principais notícias do dia.
Depois de ser treinado com a voz de uma pessoa, o Voice Engine pode “falar” qualquer palavra, frase ou texto inserido pelo usuário, mesmo que não esteja no idioma nativo do indivíduo. Isso significa que a IA poderia, por exemplo, ler um texto em português usando a voz de alguém que fala inglês.
A startup apresentou uma demonstração prática do funcionamento da inteligência artificial. Um clipe de áudio com um discurso em inglês é fornecido. Em seguida, o Voice Engine utiliza a voz de referência para traduzir o discurso para a língua japonesa.
Apesar de ainda não estar disponível ao público, a OpenAI afirma estar comprometida com o desenvolvimento de IA segura e amplamente benéfica, provavelmente considerando a precaução necessária para evitar o uso indevido da tecnologia.
Segundo a empresa, uma das possíveis aplicações da ferramenta é na área de tradução. Criadores poderiam usar amostras de suas próprias vozes para traduzir conteúdos em vídeos ou podcasts e alcançar um público mais amplo. Além disso, a tecnologia poderia ajudar pessoas com condições degenerativas na fala.
A empresa demonstrou o funcionamento prático da inteligência artificial, mostrando um discurso em inglês sendo traduzido para japonês usando o Voice Engine. A OpenAI também mencionou que a Universidade Brown está explorando o uso da ferramenta para ajudar pacientes com doenças que afetam a fala, incluindo um caso em que a voz de uma jovem foi restaurada usando apenas um vídeo gravado para um projeto escolar.
Apesar dos benefícios potenciais da tecnologia para a medicina, entretenimento e outras áreas, existem preocupações sobre seu possível uso indevido, como a clonagem da voz de pessoas para golpes e disseminação de notícias falsas.
Um exemplo é o uso de deepfakes para atrair vítimas para jogos de apostas falsos na internet. Celebridades e influenciadores digitais tiveram suas imagens clonadas por IA para criar propagandas falsas e dar credibilidade às plataformas dos golpistas.
Por isso, o acesso ao Voice Engine está restrito a instituições autorizadas pela OpenAI, sem previsão de disponibilidade para o público em geral. Em uma nota relacionada, a OpenAI está preparando o lançamento público da IA Sora para 2024, uma tecnologia capaz de gerar vídeos a partir de comandos de texto simples.
Por Bruno Rakowsky