#181 #182 creo que no os dais cuenta de la magnitud de GPT-3.5 y GPT-4, el último modelo de OpenAI del que hay datos sobre su número de parámetros es GPT-3 y este estaba en 175 mil millones de parámetros (175B en inglés).
Los modelos open source actuales que se ejecutan a nivel local tienen unos 7 mil millones de parámetros (7B), como LLaMa-7B, y de por sí requieren 13GB de VRAM para hacer la inferencia sobre ellos en una GPU, si lo cuantizas a int4 puedes bajar a 3.9GB de RAM para hacer inferencia en una CPU, aunque esto tiene como consecuencia que la velocidad del modelo sea la de ChatGPT en uno de sus peores días a unos 4 tokens/s. (https://github.com/ggerganov/llama.cpp#memorydisk-requirements)
Los requisitos de memoria escalan de forma lineal con el número de parámetros así que como mínimo para hacer inferencia de GPT-3 sobre una GPU harían falta 325 GB de VRAM, o lo que es lo mismo 5 A100s, si quisieras intentar hacer la inferencia en CPU de un modelo de este tamaño cuantizado a int4 harían falta como mínimo 98 GB de RAM (para que fuera a 0.1 tok/s). Y esto es hablando de GPT-3, a saber el número de parámetros que tiene GPT-4.
Y para hacer fine-tuning incluso con LoRA en un modelo de 7B se tarda unas 12h con una RTX 3090 haciendo brrr, así que imagínate con un modelo de la escala de GPT-3 (ya ignorando los requisitos de memoria completamente absurdos).
Así que no sé que ordenadores os creéis que tiene la gente en casa, pero yo personalmente no tengo un rack con 8 A100s en la terraza