NEO GPU dapat digunakan untuk membangun sistem dengan memanfaatkan sumber daya GPU (Graphics Processing Unit), seperti untuk kebutuhan sistem Deep Learning, Natural Language Processing (NLP), Computer Vision, maupun Data Analytics. Pada kali ini kita akan mempelajari cara mengimplementasikan layanan GIO as a Service sebagai Large Language Model (LLM) Server.
Pada kali ini penulis akan menggunakan model DeepSeek-R1-Distill-Qwen-32B.
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
*Agar proses download tidak terganggu anda bisa menggunakan screen.
python3 -m venv envname
source envname/bin/activate
**Instal Python apabila belum terpasang pada OS dan ganti envname dengan nama environment yang diinginkan

pip install vllm
python3 -m pip show vllm
touch startvllm.sh
chmod +x startvllm.sh
#!/bin/bash
API_KEY="sk-abc12ABC321" #Input key yang unik sebagai API Key
MODEL_NAME="DeepSeek-R1-Distill-Qwen-32B"
MODEL_PATH="/home/cebgn/DeepSeek-R1-Distill-Qwen-32B" #Sesuaikan path directory sesuai tempat model berada
DOWNLOAD_DIR="/home/cebgn" #Sesuaikan path directory sebagai download directory
# Jalankan server vLLM
python3 -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 \
--port 8080 \
--api-key $API_KEY \
--served-model-name $MODEL_NAME \
--model $MODEL_PATH \
--download-dir $DOWNLOAD_DIR \
--gpu-memory-utilization 0.95 \
--max-model-len 32768 \
--enforce-eager
./startvllm.sh
[program:vllm-qwen3-4b]
#sesuaikan nama direktori, environment dan user anda
directory=/home/cebgn
command=/home/cebgn/ce-vllm/bin/python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8080 --api-key sk-gantiapikeyini --served-model-name DeepSeek-R1-Distill-Qwen-32B --model /home/cebgn/DeepSeek-R1-Distill-Qwen-32B --download-dir /home/cebgn --gpu-memory-utilization 0.95 --max-model-len 32768 --enforce-eager
autostart=true
autorestart=true
stdout_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stderr_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stdout_logfile_maxbytes=50MB
stdout_logfile_backups=10
stderr_logfile_maxbytes=50MB
stderr_logfile_backups=10
environment=PYTHONUNBUFFERED=1,CUDA_VISIBLE_DEVICES=0,PATH="/home/cebgn/venv/bin:/usr/local/cuda/bin:%(ENV_PATH)s",LD_LIBRARY_PATH="/usr/local/cuda/lib64:%(ENV_LD_LIBRARY_PATH)s",HF_HOME="/home/cebgn/.cache/huggingface"
priority=10
user=cebgn
numprocs=1
startsecs=30
startretries=3
stopwaitsecs=120
stopsignal=TERM
killasgroup=true
stopasgroup=true
redirect_stderr=true
supervisorctl reread
supervisorctl update
supervisorctl stop vllm-qwen3-4b
supervisorctl start vllm-qwen3-4b


curl http://IP-Public:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer [API_KEY]" \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-32B",
"messages": [
{
"role": "user",
"content": "[Prompt]"
}
]
}'*IP Public dan Port bisa disederhanakan menggunakan reverse proxy sebagai endpoint, berikut panduan Konfigurasi Reverse Proxy Nginx dan Apache
Contoh output

Implementasi NEO GPU sebagai GIO as a Service untuk membangun LLM Server memberikan solusi yang efisien dalam memanfaatkan sumber daya GPU untuk kebutuhan komputasi berat seperti Deep Learning, NLP, dan analisis data. Dengan konfigurasi yang tepat, layanan ini mampu meningkatkan performa pemrosesan, fleksibilitas, serta skalabilitas sistem, sehingga dapat mendukung pengembangan dan penerapan model kecerdasan buatan secara optimal dan berkelanjutan.
Semoga artikel ini dapat membantu Anda. Temukan bantuan lainnya melalui Knowledge Base Biznet Gio. Jika Anda masih memiliki kendala silakan hubungi Support Biznet GIO melalui email support@biznetgio.com atau live chat maupun WA ke website www.biznetgio.com dan bisa juga melalui telepon ke nomor (021) 5714567.