IA: Programas y Herramientas

allmy

#1 https://www.riffusion.com/ xD ahora estable difussion general música xD

2 respuestas
pa1nkill3r

#31 Que le metes un estilo musical y lo reproduce por lo que veo?
Un texto a audio/musica ?

1 respuesta
allmy

#32 Sip. Le metes un estilo musical, lo convierte a imagen, genera una imagen nueva con la huella dela música, y luego produce la música. Sí, para el usuario es texto -> audio/música

10 días después
djtonight

#2 Fakeyou https://fakeyou.com/

IA text to voice
Tiene una lista de modelos entrenados ocn voces de famosos, españoles incluídos. Puedes entrenarlo con tu propia voz.

2 1 respuesta
Kookiu

https://www.speak.com

1 respuesta
pa1nkill3r

#31 #34 #35 He creado un apartado con "Otros" para ir metiendo cosas que salgan.
Si consideráis oportuno meterlo en las categorías adelante, fakeyou la probé y quizás la mueva a texto a voz directamente, es bastante específica, yo creo

2
ercabesa

https://www.chatbcg.com/

Para crear PowerPoints, usa Dalle + ChatGPT

1 respuesta
pa1nkill3r

Addy, asistente de correo electrónico inteligente
Impulsado por ChatGPT, Correos eligiendo estilo y tono

4
11 días después
djtonight

4
Puni

Estaría guay añadir cuales requieren pago y cuales tienen una opción gratuíta, aunque sea con créditos, para trastear un poco con ellas.

3
Aidanciyo

Microsoft desvela VALL-E, una IA capaz de recrear la voz de cualquier persona a partir de un corte de tres segundos

Los avances en IA conversacional y de generación de imágenes están siendo tan espectaculares como continuados. En cuestión de unos pocos meses se han abierto al público varias plataformas capaces de proporcionar resultados virtualmente indistinguibles de los creados por un ser humano de carne y hueso salvo en los más nimios detalles, y tras la sorpresa que ha supuesto ChatGPT, ahora Microsoft ha anunciado VALL-E, una IA capaz de simular la voz de una persona con una muestra de solo tres segundos.

Este "modelo neuronal de códec de lenguaje" destaca por una elevadísima capacidad de síntesis del habla, posible gracias a una biblioteca de audio creada inicialmente por Meta que contiene 60.000 horas de inglés hablado por más de 7.000 interlocutores. Como suele suceder con muchos de estos registros para investigación y desarrollo (desde rostros para reconocimiento fácil a composiciones artísticas para generación de imágenes), gran parte de las muestras de audio proceden del dominio público, y más concretamente de los audiolibros de LibriVox.

Partiendo de esta vasta colección de sonidos humanos, VALL-E puede imitar una voz a partir de un corte de tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación. Con estos datos, la IA puede pronunciar los textos introducidos con sorprendente fidelidad. Según indica ArsTechnica, algunas frases pueden sonar algo enlatadas, pero otras pueden confundirse fácilmente con el habla de una persona real, manteniendo un tono emocional verosímil.

Microsoft tiene grandes expectativas para VALL-E. Algunos de sus posibles usos pasarían por la creación de aplicaciones de texto a voz de alta calidad, algo que podría ser muy útil para personas afectadas de dolencias en las partes del cuerpo que hacen posible el habla a nivel mecánico, así como para aquellas con problemas neurodegenerativos. Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código.

1 respuesta
totespare
#41Aidanciyo:

Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código.

claaaaaaaaro xd. Pero mola, ojalá se pueda probar gratis!

preguntitas

Solo 3 segundos? Creo que se han pasado.

2 respuestas
djtonight

#43 tienes que leer un texto de 300 palabras en esos 3 segundos xd

seguro que tiene letra pequeña

2 respuestas
preguntitas

#44 dice que también necesitan la frase, que no dicen de cuantas palabras, imagino que los 3 segundos será lo que necesita para identificarla. No está muy claro

allmy

#43 #44 El último paper era de 4s-7s xD o sea que me lo creo 100%
Sonaba un poco robótica en algunas palabras, pero daba el pego bastante bien.

1 respuesta
Calzeta

#46 Me creo que en 3s pillen el timbre (básicamente el espectro tu voz) pero todas las demás particularidades del habla se quedan fuera.

Esto lo he escrito sin leer la noticia, ya veo que

tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación

O sea que no son 3s y punto. Supongo que la frase estará construida para contener todas los movimientos vocales típicos.

1 respuesta
dvneil

por fin jugar todo baldurs gate con los textos en voz

3
dbj

#47 Sabemos dónde se puede probar? a diferencia de otras, no lo encuentro

pa1nkill3r

Ahora mismo no estoy siguiendo la escena.
Si alguien se quiere implicar en ir editando #1 que se lo notifique a un moderador y le dé permisos para poder editar el post

Wakkox

Parecido a Midjourney pero gratis e ilimitado. Está varios pasos por detrás en calidad pero it's free.
https://www.bluewillow.ai/

2
Cheerios

Estoy muy interesado en todas estas posibilidades, pero sin duda la que más espero es una voz artificial (texto a voz) que esté bien. Me da igual que sean voces personalizadas o random mientras suene natural. Esperaré con interés esto nuevo de Microsoft.

1 respuesta
Sust0

#52 No hay ya programas que pasan texto a voz sin que vayan por IA?

1 respuesta
Cheerios

#53 Sí, he probado varias, pero la verdad es que los resultados no me convencen. Me parece todo muy robótico. Lo querría para hacer vídeos para clase (soy profesor) y entre más natural suene, mejor. De todos modos aprovecho para pedir recomendaciones. Igual existe ya algún servicio suficientemente bueno y lo desconozco.

1 respuesta
Dubley

#54 has probado https://www.narakeet.com/app/text-to-audio/?

Las voces en mi opinión son bastante realistas. Poniendo comas y puntuaciones, puedes mejorar las pausas y las entonaciones de las frases y dan muy buen resultado.

1 1 respuesta
GuaNaGe

¿Alguien que haya probado riffusion es capaz de hacer que solo genere el audio con un solo instrumento?

Ej: Un riff de funki con el bajo, pero que solo suene el bajo.

Cheerios

#55 Gracias! Acabo de hacer alguna prueba y la verdad es que no queda mal. ¿Sabes si tiene scripts para mejorar los resultados? Quizá lo use para algún proyecto que tengo en mente.

PD: No me deja darte pulgar arriba, me dice "faltan datos". ¿A alguien más le ocurre?

Kerty

Buenas herramientas. Gente temblando por sus puestos de trabajo, pero yo lo veo eso, una herramienta más, el que le saque partido simplemente optimizara su trabajo.

9 días después
pa1nkill3r

¿Alguien ha probado a crear LOGOS?
Texto a Imagen tipo "logo, equipo de futbol..."

¿Alguna herramienta recomendable?

2 respuestas
B

#59 Compartí alguna que otra web para ello en el tema de webs, me tengo que pirar ipso-facto así que te dejo la tarea de mirarlo.

1 respuesta