-
언어 모델의 효율적인 배포: Hugging Face AutoGPTQ를 사용한 LLMS 양자화IT 일반 2023. 9. 6. 20:28반응형
Hugging Face AutoGPTQ: 효율적인 배포를 위한 LLM 양자화
LLM ( 대형 언어 모델 )은 자연어 이해 , 기계 번역 , 텍스트 생성 과 같은 광범위한 작업을 수행할 수 있는 기능 덕분에 최근 몇 년 동안 점점 인기가 높아지고 있습니다 . 그러나 LLM은 교육 및 배포에 매우 리소스 집약적일 수 있습니다.
이 문제를 해결하기 위해 Hugging Face는 사용자가 GPTQ 방법을 사용하여 LLM을 양자화할 수 있는 AutoGPTQ 라이브러리를 출시했습니다. GPTQ는 높은 수준의 정확도를 유지하면서 LLM의 크기와 메모리 공간을 크게 줄일 수 있는 양자화 알고리즘입니다 .
AutoGPTQ 라이브러리는 사용하기 쉽고 Hugging Face Transformers 라이브러리와 호환되는 모든 LLM과 통합 될 수 있습니다 . AutoGPTQ를 사용하여 LLM을 양자화하려면 라이브러리를 설치하고 다음 명령을 실행하면 됩니다.
pip install auto-gptq auto-gptq --model_path path/to/model --output_path path/to/quantized_model
AutoGPTQ 라이브러리는 자동으로 LLM을 양자화하고 양자화된 모델을 지정된 출력 경로에 저장합니다.
다음 표는 AutoGPTQ를 사용하여 양자화한 후 몇 가지 인기 있는 LLM의 크기 및 메모리 공간 감소를 보여줍니다.
모델원본 크기(MB)양자화된 크기(MB)감소율(%)GPT-3 (175B 매개변수) 600 100 85% RoBERTa(1.5B 매개변수) 150 20 86% DistilBERT(660M 매개변수) 40 5 88% 보시다시피 AutoGPTQ는 높은 수준의 정확도를 유지하면서 LLM의 크기와 메모리 공간을 크게 줄일 수 있습니다. 이를 통해 휴대폰 및 에지 장치와 같이 리소스가 제한된 장치에 LLM을 배포할 수 있습니다.
AutoGPTQ 라이브러리는 LLM을 프로덕션에 배포하려는 연구원과 개발자 에게 유용한 도구입니다 . 사용 하기 쉽고 LLM 배포에 따른 비용 과 복잡성을 크게 줄일 수 있습니다 .
참조:
- Hugging Face AutoGPTQ: 효율적인 배포를 위한 LLM 양자화 : https://huggingface.co/blog/gptq-integration
반응형