#844 Pf, no sé ni como editar el bat, me parece que diste por hecho que se algo de "programación básica" o algo así jaja.
#871 entra en https://colab.research.google.com/github/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb
Le das a run y esperas a que salga un enlace con el nombre de "gradio"
Ya te saldrá una pestaña nueva en el navegador para generar imagenes
#727 Qué tal funciona ese OCR?
Quería pasar unas fotos que tengo en PDF a OCR
Y luego pasarlo a audio
#873 pues ni idea la verdad, hace años que no tengo un pdf con imágen del texto, recuerdo que traían una compresión de morirse y necesité un rato corrigiendo caracteres. Chatgpt te lo puede sacar, incluso la galeria de imagenes del movil te detecta texto (al menos fotos de iOS).
para pasarlo a audio, elevenlabs ha sacado app ElevenReader que está curiosa, si no https://notebooklm.google/ parece que lo esta petando, ya que te monta un podcast y todo.
Justo lo vi ayer y es una BARBARIDAD, estuve ayer pasandole paginas convertidas a pdf y videos transcritos de youtube y era una locura lo bien que lo hacia:
#874 Pues lo poco que lo he usado, me ha ido fatal.
Supongo para hacer resumenes bien pero cuando es algo mas tecnico se desborda.
#878 Lo que he descubierto es que, al menos a mí, me va mejor poniendo contenido más específico, seleccionado, que chuzándole 40 libros; respecto al podcast que monta. Sin embargo, para buscar sinergias, relaciones manifiestas y ocultas, sí que va bien añadiendo mucho contenido.
Por contrastar, ¿puedes dar el caso concreto en el que se desborda con algo más técnico?, mi caso de uso, con humanidades, es bastante bueno. Y hasta donde tengo entendido, metiéndole papers de investigación también va bien (no he probado todavía).
Posdata: Ayer quedé con una buena amiga, hicimos el doc en física juntos, en grupos diferentes, pero en la misma área. Ella ha sacado una opo hace poco y ha estado alienada del Mundo Real™. Se había quedado en los albores de los generadores de imágenes. Le estuve hablando de LLM, de chagpt (¡lo desconocía por completo!), de notebooklm y del nuevo curro al que entro ahora en noviembre (MLOps, MLengineer). He visto el miedo en sus ojos, jajaja, no se creía nada. Tuve que repetirle que estamos viviendo una revolución semejante a la irrupción de la imprenta de Gutenberg.
#879 dos hojas de excels con nombre de productos y precios, todo esto pasadas a pdf.
Hago la primera de busca x producto y dime el precio. Esto funciona bien.
Pero cuando le digo en la tabla uno, está el producto T0001 y en la tabla dos está el mismo producto pero con nombre T01, dime si en las dos tablas están las mismas unidades del producto.
Esto no lo analiza bien porque T0001 y T01 no es el mismo nombre.
Le digo explicitamente que T0001 equivale a T01 y dice que eso no lo puede asegurar por que no hay ningún texto que lo confirme.
En la otra prueba fue darle la web del Api, en formato .md
web
Me hacia un buen resument pero a la hora de decirle que me diera los comandos para importar un proyecto. Me daba un texto generico de que eso no lo podia hacer sin tener unas especificaciones tecnicas y que contacte con un profesional. pero a la hora de decirme por ejemplo la lista de parametros si que me la puede dar. No tiene la capacidad de leer los ejemplos y crear uno con los parametros ya establecidos.
El tercer ejemplo fue algo muy basico. le dí dos perfiles de personajes, le dije de crear una conversación en x contexto y si que lo hizo. Le dije de crear un 3rd personaje pero no lo hizo.
Le di mas información y pudo crear mas Lore de la historia pero dependia mucho de como formulase la "pregunta".
#874 #875 #877 Pues he probado a...
Meter fotos de un texto
Convertirlo a PDF
Crear un podcast
Ahora bien, necesitaría que los pódcast se quedaran en castellano.
¿Se puede usar Wisper para pasar de Audio a Texto?
¿Generarían unos subtítulos?
¿Podría traducir los subtitulo para crear el pódcast en español?
#883 ¿Solo quieres OCR? Estás dando muchas vueltas si solo quieres eso. Además, te está creando un producto derivado a partir del texto. Desde mi punto de vista, lo mejor que puedes hacer es tirar directamente de chatgpt, gemini, claude, etc., no lo he probado, pero casi seguro que tienen OCR integrado.
Estoy convencido de que tiene que haber mil soluciones para lo que comentas, sucede que desconozco cuales, al ser un problema tan sencillo yo lo haría a mano en un script de python, tirando de algún modelo específico de reconocimiento óptico de caracteres de huggingface. Seguro que este tira bien: https://huggingface.co/microsoft/trocr-base-handwritten
#884 Sí, desde luego, si puedo sacar el texto plano con OCR, ya me soluciona mucho la vida.
ChatGPT se entera de algo, pero luego me cruza mucha información cuando le pregunto.
Puedo probar página por página a ver qué respuesta da.
No soy programador, no sé si se necesita, pero voy a mirar eso de Hugging Face a ver como se utiliza, cualquier ayuda, es bienvenida.
#885 Podrías pedirle que te transcriba el texto. Página a página. Copias y pegas el texto transcrito. ¿Has probado esto?
#886 Pues parece lo más eficiente, meter imagen a imagen en ChatGPT
"Transcribe esta página en español paso a paso"
Ahora me pide el plus para hacer mas de una pagina
Yo busco alguna extensión que reconozca los textos de un anime y los traduzca automáticamente al español ¿existe?
Hola! Estoy buscando alguna IA a la que le pueda subir una foto de una casa vacía y que le pueda pedir que me la rellene con muebles, etc. Osea, dándole órdenes específicas de, aquí quiero esto, aquí lo otro.
También sería interesante que de un plano me generara un render. No sé si existe alguna herramienta así pero imagino que sí.
Gracias!
Cómo está la cosa de las IA para que actúen a modo de cleaner si le pasas una página de un comic o un manga? O sea, que te vacíe los bocadillos de los diálogos o los "sonidos" de fondo, esas cosas.
Probé hace tiempo con chatgpt pero petó y me decía que no podía o daba error o algo así, con la versión web gratuita.
Hay alguna otra IA que haga esas cosas, o forma de que lo haga chatgpt?
#875 Me parece muy loco. El giro de los diálogos, el tono, las pausas, referencias y bromas,. Todo muy natural. el test al final del vídeo me parece tope interesante. Es más real que incluso cuando pones a una persona por primera vez delante de un micro y se le robotiza el diálogo.
Brutal el as que se estaba guardando Google en la manga
He visto el miedo en sus ojos, jajaja, no se creía nada.
Ostras... Me estoy imaginando la situación y lo cierto es que si has estado en un coma los últimos cinco años te crees que te están vacilando. Pobre! xd
#895 Estoy probando una extension y es una maravilla traduce automaticamente cualquier texto al idioma que quieras. La extension funciona para google y brave
https://chromewebstore.google.com/detail/scan-translator/mnngaddpelmhcgkbeajnbjmkdmpkogbo
#897 totalmente, jaja. Respecto a lo que dices del podcast, que está muy bien, me he fijado en que usa muchos conectores idénticos durante la conversación. Por ejemplo "Exactly", y lo usa con demasiada frecuencia. Da un toque artificial.