#780 el problema es que el modelo este, el bueno, requiere de 16-24gb vram. ni idea de si con 16gb va bien
Estoy buscando algun servicio de traduccion de audio. Lo que quiero es grabar el audio y que me lo traduzca a ingles. Es para hacer tutoriales en youtube de un producto.
Me da igual que sea local, en la nube o su puta madre, y tambien me da igual lo que cueste xd. ¿Existe alguna herramienta para hacer eso?, por que todo lo que encuentro son mierdas que te graban por la webcam , para sincronizar los labios, etc... yo quiero algo tan sencillo como una traduccion del audio de mi voz a Ingles y poder descargar ese audio para editar mi video y sustituir mi voz por la traducida.
#782 gpt me da estás opciones. Quizás alguien que lo haya hecho te sepa decir mejor, pero de mientras puedes echar un ojo.
Aquí te menciono algunas opciones populares:
Google Translate:
Google Translate tiene una función de traducción de voz en tiempo real. Puedes hablar en un idioma y la aplicación lo traducirá al instante a otro idioma, tanto en texto como en voz.
Microsoft Translator:
Similar a Google Translate, Microsoft Translator ofrece traducción en tiempo real para conversaciones en varios idiomas. También permite traducir grabaciones de audio.
iTranslate:
Esta es otra aplicación que puede traducir voz en tiempo real. Ofrece una función de "modo conversación" que permite a dos personas hablar en diferentes idiomas y que ambos reciban la traducción al instante.
DeepL Translator:
Aunque es más conocido por sus traducciones de texto, DeepL también ha comenzado a ofrecer servicios de traducción de voz, aunque esta función puede estar más limitada comparado con Google o Microsoft.
SayHi Translate:
Esta es una aplicación que traduce tanto texto como voz en tiempo real, permitiendo conversaciones fluidas entre personas que hablan diferentes idiomas.
TranslateMe:
Es una aplicación relativamente nueva que se especializa en la traducción de voz en tiempo real y es muy fácil de usar.
Papago:
Esta aplicación de Naver es particularmente popular en Asia y ofrece traducción de voz en tiempo real entre varios idiomas, incluyendo algunos menos comunes.
Estas herramientas son útiles para traducir tanto en tiempo real como para procesar grabaciones y luego traducirlas. Algunas requieren conexión a internet para funcionar, mientras que otras pueden tener capacidades offline limitadas.
Nunca lo he probado pero una que es bastante famosilla y popular es esta
https://www.heygen.com/ai-voices
Eso si, de pago y tal creo que tiene demo
Buenas. Quiero alguna aplicación ya sea web o local para pasar video o audio a texto, etiquetando a los oradores ¿Alguien la conoce?
Si hay que pagar, ya sea por comprarla o mensual, no hay problema.
Os dejo una web que me ha resultado útil para buscar proyectos relacionados con IA
https://theresanaiforthat.com/
Pues con la ultima version de forge ya se puede probar una version "custom" de flux con 8gb de vram y hacer pruebas, no esta mal, lo que no he conseguido hacer funcionar es el famoso lora de realismo que tanto ha dado que hablar estos dias de las fotos de la gente en las conferencias, pero poco a poco
@dvneil hay esperanza
No se como seria con el lora, pero hay detalles que siguen pecando de lo mismo de siempre, esa piel "plasticosa", sobre todo se nota en las piernas, y el tema de las manos pues el de siempre, depende de como le de te pone un dedo de mas, o te cambia un pulgar por otro meñique xD
Tambien os digo no tengo ni puta idea de como usarlo ni promptearlo, era la primera foto super basica, veremos como avanza la cosa
#790 joder esq están todas muy buenas normal q en las pelis distopicas prefieras follar con una robopilingui asistente xD
#791 esto es normal porque los modelos quieren hacer imagenes atractivas y la estilizacion hace que pongan imagenes que gusten, se puede hacer gente normal tambien con buenos prompts.
Como por ejemplo esta
#798 No veo requisitos de vram ni de gráfica para rular flux en local, tú sabes cuáles son?
#799 hay muchos modelos, el minimo es 8gb vram, (aunque alguno dice que le va con 6gb), el que mas calidad da, son 16gb vram minimo
y en todo caso chupa ram, se necesitan 32gb.
Ojo que ya estan empezando a aparecer loras bastante interesantes para flux
El que mas calidad da es el pro? Ese no era privado de la empresa?
Yo he estado usando el "dev" que es el intermedio y open source con 8gb de vram y va bien, eso si, obligatoriamente lo que dices 32GB de ram minimo, a veces me da susto porque veo la ram llegar a casi 30gb, pero la verdad que el desarrollador de forge se la esta sacando
#801 no te se decir, diria que es el dev completamente full (24gb o asi), pero no se el resto de devs modificados, si dan calidad similar
yo apenas lo he probado, y con 8gb tengo que tirar para modelos recortados, y no he conseguido muy buenos resultados, como tampoco voy a realista, no le he metido horas
Si, yo estoy usando el dev modificado "bnb-nf4" que saco el creador de forge que funciona con 6-8gb, imagino que algo de imagen perdera respecto al tocho, pero bueno es lo que nos queda
Voy a investigar a ver si ya hay novedades sobre los loras en forge porque de momento no funcionaban y tenia curiosidad por probar el famoso lora de realismo que ha dado tanto que hablar en twitter estos dias xD
#803 pero esto funciona en ComfyUI?
Con 8 Gbs cuanto tardas en crear una imagen?
Probé yo el Schnell con ComfyUI y tuve que bajarle a 2 steps y aun asi tardaba 1 minuto y medio. Y la calidad no era muy buena que digamos.
edit: #809 gracias
Si, en comfy suele funcionar todo ya que es la que mas compatibilidad tiene
Pero yo lo estoy usando en forge (es como un A1111 pero mejorado), con un modelo propio que el creador ha sacado
Probe el modelo dev y con 20 pasos tardaba 1 minuto aprox en crearlas
Y el scnell ese que sacaron ayer para forge, con 2-3-4 pasos pues bastante poco, 6-7 segundos
Imagino que tu estaras probando los modelos "tochos" y esos al no estar optimizados, con 8gb de vram pues o no funcionan o tardan lo suyo,
Te dejo los videos donde explican como usar los modelos en forge (los loras aun no funcionan pero se actualiza a diario)
Modelo tocho
Modelo Schell (basico)
Para el tema de descargar programas, loras, modelos y demas siempre voy a recomendar stability matrix, es una maravilla que te permite instalar programas de SD de manera automatica, como tambien loras y demas de civitai
#798 Recomendáis este para el tema thumbnails de youtube con caras apestosas? Estoy buscando algo que me permita generar expresiones faciales de caras reales y si es gratis y en local mejor.
( si sabéis tb de alguno que pueda servir aunque sea online y por tókens o suscripción también me interesa )