Implementasi NEO GPU sebagai LLM Server

A. Pendahuluan

NEO GPU dapat digunakan untuk membangun sistem dengan memanfaatkan sumber daya GPU (Graphics Processing Unit), seperti untuk kebutuhan sistem Deep Learning, Natural Language Processing (NLP), Computer Vision, maupun Data Analytics. Pada kali ini kita akan mempelajari cara mengimplementasikan layanan GIO as a Service sebagai Large Language Model (LLM) Server.

B. Panduan

Pada kali ini penulis akan menggunakan model DeepSeek-R1-Distill-Qwen-32B.

Akses layanan GPU as a Service secara SSH menggunakan akses yang sudah diberikan pada saat pemesanan. Pemesanan dapat dilakukan dengan menghubungi Tim Sales pada email sales@biznetgio.com

Unduh model DeepSeek-R1-Distill-Qwen-32B, model ini bisa didapatkan pada repository AI seperti https://huggingface.co/.

git lfs install 
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

*Agar proses download tidak terganggu anda bisa menggunakan screen.

Buat dan aktifkan virtual environment python.

python3 -m venv envname 
source envname/bin/activate

**Instal Python apabila belum terpasang pada OS dan ganti envname dengan nama environment yang diinginkan

Install modul vllm sebagai vllm interface.

pip install vllm 
python3 -m pip show vllm

Buat file bash script dan berikan permission eksekusi.

touch startvllm.sh 
chmod +x startvllm.sh

lalu masukkan kode berikut dan sesuaikan.

#!/bin/bash

API_KEY="sk-abc12ABC321" #Input key yang unik sebagai API Key 
MODEL_NAME="DeepSeek-R1-Distill-Qwen-32B" 
MODEL_PATH="/home/cebgn/DeepSeek-R1-Distill-Qwen-32B" #Sesuaikan path directory sesuai tempat model berada 
DOWNLOAD_DIR="/home/cebgn" #Sesuaikan path directory sebagai download directory 
# Jalankan server vLLM 
python3 -m vllm.entrypoints.openai.api_server \ 
--host 0.0.0.0 \ 
--port 8080 \ 
--api-key $API_KEY \ 
--served-model-name $MODEL_NAME \ 
--model $MODEL_PATH \ 
--download-dir $DOWNLOAD_DIR \ 
--gpu-memory-utilization 0.95 \ 
--max-model-len 32768 \ 
--enforce-eager

Lalu start bash script yang sudah dibuat

./startvllm.sh

Menjalankan service pada background, jika model sudah berjalan dengan baik saat foreground, jalankan secara background service dengan supervisord.
Buat konfigurasi pada /etc/supervisor/conf.d/vllm-qwen3-4b.conf

[program:vllm-qwen3-4b]
#sesuaikan nama direktori, environment dan user anda
directory=/home/cebgn 
command=/home/cebgn/ce-vllm/bin/python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8080 --api-key sk-gantiapikeyini  --served-model-name DeepSeek-R1-Distill-Qwen-32B --model /home/cebgn/DeepSeek-R1-Distill-Qwen-32B --download-dir /home/cebgn --gpu-memory-utilization 0.95 --max-model-len 32768 --enforce-eager
autostart=true
autorestart=true
stdout_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stderr_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stdout_logfile_maxbytes=50MB
stdout_logfile_backups=10
stderr_logfile_maxbytes=50MB
stderr_logfile_backups=10
environment=PYTHONUNBUFFERED=1,CUDA_VISIBLE_DEVICES=0,PATH="/home/cebgn/venv/bin:/usr/local/cuda/bin:%(ENV_PATH)s",LD_LIBRARY_PATH="/usr/local/cuda/lib64:%(ENV_LD_LIBRARY_PATH)s",HF_HOME="/home/cebgn/.cache/huggingface"
priority=10
user=cebgn
numprocs=1
startsecs=30
startretries=3
stopwaitsecs=120
stopsignal=TERM
killasgroup=true
stopasgroup=true
redirect_stderr=true

Update dan running konfigurasi.

supervisorctl reread
supervisorctl update

Jalankan service vllm.

supervisorctl stop vllm-qwen3-4b
supervisorctl start vllm-qwen3-4b

Status apabila service berhasil running

*Gambar 2.3 Service VLLM pada Supervisord Aktif*

Pastikan port sudah listen

Coba API yang telah dibuat. Contoh penggunaan curl :

curl http://IP-Public:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer [API_KEY]" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-32B",
    "messages": [
      {
        "role": "user",
        "content": "[Prompt]"
      }
    ]
  }'

*IP Public dan Port bisa disederhanakan menggunakan reverse proxy sebagai endpoint, berikut panduan Konfigurasi Reverse Proxy Nginx dan Apache

Contoh output

C. Kesimpulan

Implementasi NEO GPU sebagai GIO as a Service untuk membangun LLM Server memberikan solusi yang efisien dalam memanfaatkan sumber daya GPU untuk kebutuhan komputasi berat seperti Deep Learning, NLP, dan analisis data. Dengan konfigurasi yang tepat, layanan ini mampu meningkatkan performa pemrosesan, fleksibilitas, serta skalabilitas sistem, sehingga dapat mendukung pengembangan dan penerapan model kecerdasan buatan secara optimal dan berkelanjutan.

Semoga artikel ini dapat membantu Anda. Temukan bantuan lainnya melalui Knowledge Base Biznet Gio. Jika Anda masih memiliki kendala silakan hubungi Support Biznet GIO melalui email support@biznetgio.com atau live chat maupun WA ke website www.biznetgio.com dan bisa juga melalui telepon ke nomor (021) 5714567.

Related Articles
Getting Started - NEO GPU
A. Pendahuluan NEO GPU merupakan salah satu layanan dari Compute Biznet Gio yang dirancang untuk memudahkan pelanggan dalam membangun sistem dengan memanfaatkan sumber daya GPU (Graphics Processing Unit), seperti untuk kebutuhan sistem Deep Learning, ...
Implementasi Neo Web Hosting Sebagai Backup Mail Server
A. Pendahuluan Implementasi backup email sangat berguna, apabila anda ingin menyimpan arsip untuk pesan lama di email, atau ketika akan melakukan transfer konten email ke server berbeda. B. Konfigurasi dan Instalasi Berikut langkah-langkanya: Backup ...
Implementasi NEO Object Storage Sebagai Primary dan External Storage Nextcloud
A. Pendahuluan Seperti halnya Dropbox, Google Drive ataupun Mediafire anda pun dapat menggunakan Nextcloud sebagai server berbagi berkas dimana anda dapat menyimpan, mengelola maupun membagikan file dalam lokasi tersentralisasi. NEO Object Storage ...
Getting Started - NEO Metal
A. Pendahuluan NEO Metal merupakan layanan Bare Metal as a Service (BMaaS) dari Biznet Gio yang memiliki kelebihan layanan Cloud seperti on-demand self service, broad network access, resource pooling, rapid elasticity, dan measured service tanpa ...
Getting Started - NEO Object Storage
A. Pendahuluan Neo Object Storage merupakan suatu layanan Cloud Storage yang telah terintegrasi dengan S3 Storage (AWS S3) yang mendukung penyimpanan File atau Data bersifat statis. Pada layanan memiliki pilihan Replikasi Multi Zone yaitu Single ...

Implementasi NEO GPU sebagai LLM Server

Implementasi NEO GPU sebagai LLM Server

A. Pendahuluan

B. Panduan

C. Kesimpulan

Related Articles

Getting Started - NEO GPU

Implementasi Neo Web Hosting Sebagai Backup Mail Server

Implementasi NEO Object Storage Sebagai Primary dan External Storage Nextcloud

Getting Started - NEO Metal

Getting Started - NEO Object Storage