You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
dynamic quantization을 통해 linear layer에 한해서 int8로 바꿨습니다.
kobart 기준 모델 사이즈는 절반으로 줄었습니다.
성능은 거의 비슷하거냐 약간 떨어지는 수준입니다.
속도 향상은 관측하지 못했습니다.
한가지 문제는 CPU에서만 작동하고 GPU에서는 작동하지 않는것으로 파악됩니다.
half quantization을 통해 batchnorm layer를 제외한 layer에 대해서 절반으로 data type을 변경했습니다.
kobart 기분 모델사이즈는 dynamic quantization보다는 약간 크지만 그래도 절반정도로 줄었습니다.
성능또한 약간 떨어지는 경향이 보였습니다.
속도 향상은 관측하지 못했습니다.
CPU에서 작동할시 에러가 발생합니다.
Structured Pruning
모델내에서 layer를 제거하는 식으로 진행했습니다.
모델마다 layer 구조가 다르기에 코드화까지는 진행하지 않았습니다.
제거하는 레이어의 수와 위치에 따라 성능차이가 예상되지만 실험은 많이 진행하지 못했습니다.
개요
모델 크기, 속도 등의 개선을 위해 몇가지 시도를 해보았습니다.
dynamic quantization을 통해 linear layer에 한해서 int8로 바꿨습니다.
kobart 기준 모델 사이즈는 절반으로 줄었습니다.
성능은 거의 비슷하거냐 약간 떨어지는 수준입니다.
속도 향상은 관측하지 못했습니다.
한가지 문제는 CPU에서만 작동하고 GPU에서는 작동하지 않는것으로 파악됩니다.
half quantization을 통해 batchnorm layer를 제외한 layer에 대해서 절반으로 data type을 변경했습니다.
kobart 기분 모델사이즈는 dynamic quantization보다는 약간 크지만 그래도 절반정도로 줄었습니다.
성능또한 약간 떨어지는 경향이 보였습니다.
속도 향상은 관측하지 못했습니다.
CPU에서 작동할시 에러가 발생합니다.
모델내에서 layer를 제거하는 식으로 진행했습니다.
모델마다 layer 구조가 다르기에 코드화까지는 진행하지 않았습니다.
제거하는 레이어의 수와 위치에 따라 성능차이가 예상되지만 실험은 많이 진행하지 못했습니다.
실험 내용: https://docs.google.com/spreadsheets/d/15A-oNYh_oF1yLfA0TyfFomGuSiJghhhE87Ys4PrhU8A/edit?usp=sharing
코드
performanceBenchmark.py
PeformanceBenchmark
rouge score, model size, latency에 대한 평가를 수행할수 있는 클래스
performance_test.py
평가하고자 하는 모델에 대한 체크포인트를 주게 되면 performanceBenchmark에 기반해서 평가를 해준다.
cli 에서 곧바로 수행 가능
cli 옵션
quantization.py
dynamic quantization, half quantization을 수행한다.
cli 에서 곧바로 수행 가능
cli 옵션
The text was updated successfully, but these errors were encountered: