Hola comunidad,
Estoy intentando correr LLaMA 3 (13B) localmente con llama.cpp
en Ubuntu 22.04, sin GPU, solo CPU (Ryzen 7, 16 GB RAM).
Logré compilar el repo (make LLAMA_CUBLAS=0
) y descargué el modelo convertido (gguf
en 4-bit).
Pero al ejecutar con:
./main -m models/llama-3-13b.gguf -p "¿Cuál es la capital de Francia?"
Me tira este error:
error: failed to allocate 13000 MB of memory
Probé bajando a -ngl 0
o cambiando --n-gpu-layers 0
, pero sigue fallando.
¿A alguien le funcionó este modelo en CPU con 16 GB? ¿Será que necesito la versión de 7B sí o sí?
Agradezco sugerencias. Dejo mis logs y configuración completa acá en pastebin: [link].
Saludos y gracias!
¡Hola DataDivame!
Sí, me pasó algo similar intentando correr el modelo de 13B en CPU con 16 GB de RAM. Te confirmo que no alcanza la RAM física para ese tamaño, incluso con cuantización a 4-bit.
Algunas recomendaciones que te pueden ayudar:
Probá con el modelo de 7B (siempre en formato Q4_K_M.gguf
, que es más liviano y eficiente en CPU).
Agregá --numa
o --memory-f32
según el build, aunque lo más importante es activar swap grande en disco (mínimo 32 GB).
Podés hacerlo así:
sudo fallocate -l 32G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
También ayuda usar este flag:
./main -m models/llama-3-7b.gguf -t 6 -ngl 0 -n 128 -c 2048
(Con -t
ajustás los threads según tu CPU, y -ngl 0
desactiva capa GPU si fuera el caso).
Otra opción es usar llamafile
, que maneja mejor el uso de memoria en sistemas chicos.
¡Contá si lo probás!
Saludos y buen experimento ⚙️
Para estar informado, Ingresá o Creá tu cuenta en Neuronautas...
Para Registrarte como nuevo usuario hace Click Aquí >>