기본 패키지 설치

아래 명령어를 실행해서 기본적으로 필요한 패키지들을 설치해 줍니다. 설치 과정에 몇 분 정도 소요될 수 있습니다.

pkg install python git cmake ccache pkg-config -y

git 명령어를 이용해서 최신 버전의 llama.cpp를 다운받아 주고 다운받은 폴더 안으로 진입합니다.

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

CMAKE로 빌드하기

공식 문서에 따르면 컴파일 방법에는 여러 가속화 옵션들이 존재하나, 제가 다양한 방법을 시도해 본 결과 아래 두 가지 방법이 가장 수월하게 사용 가능합니다.

CPU만 이용하는 경우랑 BLAS 가속화를 적용한 경우랑은 체감이 될 정도의 엄청난 성능차가 존재하는 것은 아니지만, BLAS 가속화를 사용했을 때 성능 면에서 약간의 개선점이 있는 것이 확인 가능했습니다.

특별한 가속 적용 없이 CPU만을 사용하는 llama.cpp를 빌드하기 위해서는 아래 명령어를 실행해 줍니다. 맨 마지막 줄은 실행 시 컴파일에 짧으면 몇 분에서 몇 십분 정도 소요될 수 있습니다.

cmake -B build
cmake --build build --config Release -j$(nproc)

BLAS 기능을 사용하기 위한 패키지를 별도로 설치한 후 빌드를 진행합니다. 맨 마지막 줄은 실행 시 컴파일에 짧으면 몇 분에서 몇 십분 정도 소요될 수 있습니다.

pkg install libopenblas -y
cmake -B build -DLLAMA_CURL=ON -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS
cmake --build build --config Release -j$(nproc)

공식 문서에 따르면 huggingface를 이용하여 모델을 다운받을 때는 아래와 같은 명령어 양식을 사용할 수 있습니다.

cd ~
curl -L {model-url} -o ~/{model}.gguf

다만, 이제 앞서 막 컴파일을 진행한 llama_cli에도 내장으로 이미 HuggingFace 모델을 다운받는 기능이 있기 때문에, 아래와 같은 방법으로도 다운로드가 가능합니다.

cd ~
./llama.cpp/build/bin/llama-cli -hf {model}

예를 들어서, lmstudio-community의 gemma-3-1B-it-qat-GGUF:Q4_0 모델을 다운받으려는 경우, 아래와 같은 형식으로 입력하면 로컬 기본 디렉토리에 다운로드가 진행됩니다.

cd ~
./llama.cpp/build/bin/llama-cli -hf lmstudio-community/gemma-3-1B-it-qat-GGUF:Q4_0

위 명령문을 이용하여 모델을 다운받게 되면 다운로드가 완료되는 직후 바로 llama.cpp가 실행됩니다. 추가적인 파라미터 입력을 원하시는 경우 이후 진행되는 'llama.cpp 실행하기' 단원을 참고하시기 바랍니다.

모델은 사이즈별로, 양자화(Quantization) 종류별로 성능 차이가 매우 큽니다. 가급적이면 작은 모델로 시작하셔서 천천히 하나하나 시도해보면서 본인에게 맞는 모델로 가시는 것을 추천드립니다.

공식 문서에 따른 모델 실행 명령문은 아래와 같습니다.

./llama.cpp/build/bin/llama-cli -m ~/{model}.gguf -c {context-size} -p "{your-prompt}"

728x90