#177 Si claro, ambas opciones son posibles. Con esa cantidad de documentos, te vas a ir facil a "cientos de millones de tokens", hacer fine-tuning de esa cantidad de training data es imposible a menos que tengas un cluster con varias GPUs (H100 o A100), y tener batch-sizes importantes. No se que presupuesto manejais, pero planteado asi, es una tarea de ingenieria ya un tanto importante.
Si hicierais RAG (todo partiendo de un modelo mas bien sencillo), solo tendriais que convertir los textos a embeddings y guardarlos. Aqui solo hay inferencia y no hay training lo cual es mucho mas barato y rapido. Luego, hacer la generacion de texto, pero este paso es compartido.
Antes de nada, me sentaria a analizar bien los requisitos que tengais. Cual es el nivel de precision que pedis, cuales son las expectativas de velocidad de generacion de texto, la calidad del front-end para el chatbot, numero de usuarios, numero de solicitides simultaneas, coste-beneficio.
Yo sin duda tiraria antes por hacer un MVP con una seccion de documentos infima y ver si mas o menos se ajusta a lo esperado.