# เริ่มต้นใช้งาน Llama 3 1 8B แบบ Local บนเครื่องของคุณ

> สอนวิธีติดตั้งและรันโมเดล Llama 3.1 รุ่น 8B บนเครื่องส่วนตัวด้วย Ollama หรือ llama.cpp ตั้งแต่เตรียมระบบ การเปิดใช้ GPU ทดสอบโมเดล ไปจนถึงการใช้งานร่วมกับ FastAPI หรือ Streamlit

Full URL: https://www.topvery.com/blog/article.เริ่มต้นใช้งานLlama318BแบบLocalบนเครื่องของคุณ.BLO251019144059.ข่าวสาร
Base URL: https://www.topvery.com/

---

## ภาพรวม

บทความนี้อธิบายขั้นตอนการรันโมเดล [Llama 3.1](https://www.topvery.com/llama) รุ่น 8B แบบ Local (ไม่ต้องพึ่งคลาวด์) สำหรับผู้ที่ต้องการทดลอง [Large Language Model](https://www.topvery.com/large-language-model) บนเครื่องส่วนตัว ทั้งบน Windows, macOS และ Linux

## สิ่งที่ต้องเตรียมก่อนเริ่ม

* เครื่องคอมพิวเตอร์ที่มี GPU อย่างน้อย 8GB VRAM (เช่น RTX 3060 ขึ้นไป)
* ติดตั้ง [Python](https://www.topvery.com/python) เวอร์ชัน 3.10 หรือใหม่กว่า
* ติดตั้ง [Git](https://www.topvery.com/git) และ [PIP](https://www.topvery.com/pip)
* โมเดลจาก Hugging Face: [Meta-Llama-3.1-8B](https://www.topvery.com/huggingface-llama3)
* ติดตั้ง [Ollama](https://www.topvery.com/ollama) หรือ [llama.cpp](https://www.topvery.com/llamacpp) เพื่อรันโมเดล
## ขั้นตอนการติดตั้ง

* ดาวน์โหลดและติดตั้ง [Ollama](https://www.topvery.com/ollama)จากนั้นเปิดเทอร์มินัลและรันคำสั่ง:ollama pull llama3.1:8b
* ตรวจสอบว่าโมเดลดาวน์โหลดสำเร็จด้วย:ollama list
* เริ่มใช้งานโมเดลผ่าน CLI:ollama run llama3.1:8b
* สามารถเรียกใช้งานผ่าน REST API ได้ด้วยคำสั่ง:curl http://localhost:11434/api/generate -d '{"model": "llama3.1:8b", "prompt": "Hello, world!"}'
## การตั้งค่าให้รองรับ GPU

หากต้องการใช้ GPU ในการประมวลผล (เช่น CUDA หรือ ROCm) ให้ติดตั้งไลบรารีตามระบบปฏิบัติการ เช่น

* **Windows / NVIDIA** : [CUDA Toolkit](https://www.topvery.com/cuda-toolkit)
* **Linux / AMD** : [ROCm](https://www.topvery.com/rocm)
* **macOS / M-series** : รองรับผ่าน Metal API โดยตรงจากนั้นตั้งค่าตัวแปรใน environment:

OLLAMA_GPU=1

## ทดสอบใช้งานโมเดล

หลังจากติดตั้งแล้วสามารถเริ่มสนทนา หรือสั่งให้โมเดลสรุปเนื้อหาได้ เช่น

ollama run llama3.1:8b
>>> สรุปข่าวเทคโนโลยีวันนี้หรือเชื่อมกับเว็บแอปผ่าน [FastAPI](https://www.topvery.com/fastapi), [Streamlit](https://www.topvery.com/streamlit) หรือ [Gradio](https://www.topvery.com/gradio)

## ข้อดีของการรัน Local Model

* ไม่ต้องพึ่งเซิร์ฟเวอร์ภายนอกหรือคลาวด์
* ข้อมูลไม่หลุดออกจากเครื่อง เหมาะกับงานส่วนตัวหรือเอกสารสำคัญ
* ปรับแต่งโมเดลได้ตามต้องการ เช่น Fine-tune และ Quantization
* รองรับการใช้งานออฟไลน์
## เคล็ดลับและคำแนะนำ

* ตรวจสอบหน่วยความจำก่อนรันทุกครั้ง ([nvidia-smi](https://www.topvery.com/nvidia-smi) หรือ Activity Monitor)
* ใช้ quantization ระดับ [Q4](https://www.topvery.com/q4-quantization) หรือ [Q6](https://www.topvery.com/q6-quantization) เพื่อลดการใช้ RAM
* ใช้ [Text Generation WebUI](https://www.topvery.com/text-generation-webui) เพื่อได้อินเทอร์เฟซใช้งานง่ายขึ้น
* ติดตามอัปเดตจาก [Llama Community](https://www.topvery.com/llama-community) เพื่อรับรุ่นใหม่
## สรุป

การรัน **Llama 3.1 8B** บนเครื่องส่วนตัวเป็นอีกก้าวหนึ่งที่ช่วยให้ผู้ใช้เข้าถึง [AI Infrastructure](https://www.topvery.com/ai-infrastructure) ได้ง่ายขึ้น โดยไม่ต้องพึ่งคลาวด์ เหมาะสำหรับนักพัฒนา นักเรียน หรือนักวิจัยที่ต้องการทดลองโมเดล ในสภาพแวดล้อมที่ควบคุมเองได้เต็มที่