[컨퍼런스 후기] 구름 : 명령어를 이해하는 오픈소스 언어 모델 KoAlphaca 개발기
in Others on Conference, Review
구름 : 컨퍼런스
구름에서 진행하는 컨퍼런스를 온라인으로 듣게 되었다. 해당 컨퍼런스를 선정한 이유는 최근 chatGPT 처럼 거대 언어모델이 연구라는 한정적인 환경에서만 실질적 활용 혹은 성능평가가 이루어지는 것이 아닌 실제 사용자가 사용할 수 있는 환경이 구성되고 있는 변화에 주목하여 해당 기술을 이후 어떻게 다루어야하고 이러한 변화속에서 내가 어떤 자세로 이를 받아드려야하는지 알고 싶었기 때문이다.
거대언어모델?
올해 들어 거대언어 모델이 활약하는데에는 우건 최근 몇년간 자연어 처리분야에서의 연구와 개발이 크게 진전한 것이 있습니다. 하지만 이에 앞서 OpenAI는 전세계 사람들이 해당 언어모델을 사용할 수 있는 제품을 개발할 수 있었다는 것에 발표자님 께서는 주목하였습니다. 즉 단순히 성능 좋은 언어모델이 이러한 돌풍을 만든 것이 아닌 전세계를 상대로 대응 가능한 서비스팀 그리고 비스니스 모델이 존재야만 합니다.
기업의 거대언어모델 적용
그렇다면 기업은 적극적으로 해당 기술을 적용시켜야만 할 것 입니다. 위 그림은 거대 언어 모델을 구축하는데 생기는 문제점 들입니다. 하지만 조건에 따라 문제점들을 trade off 관계로 나타낼 수 있습니다.
API 서비스 이용
첫번쨰로 존재하는 서비스를 이용하는 방법입니다. 장점으로는 적은 자원으로 모델을 사용할 수 있습니다. 하지만 서버관리가 의존적이라는 점이 큰 단점입니다.
두번쨰는 LLAMA, Polyglot-ko 등 어느정도 규모가 있는 언어모델로 서비스를 제공하는 것입니다. 장점으로 기업에서 원하는 도메인을 학습시켜 성능을 보일 수 있지만 데이터가 대량으로 필요하고 실제로 첫번째 방법보다 성능이 잘 나올 것이라는 보장이 없습니다.
마지막으로 BERT 혹은 GPT2 와 같은 작은 모델을 학습시켜 사용합니다. 장점으로는 적은 자원으로 언어모델을 운용가능합니다 하지만 성능적인 부분과 오히려 도메인에 따라 위에 상황보다 더 큰 자원을 필요로 합니다.
따라서 기업은 상황에 맞게 모델을 운용할 수 있어야합니다.
koAlpaca 모델
koAlpca모델은 기존에 존재한 언어모델을 한국어 데이터로 파인튜닝한 모델입니다. 학습 방법은 Alpca 데이터셋 52k개와 input을 DeepL로 번역 함으로써 모델을 학습했습니다. 이후 버전에 따라 더 좋은 데이터를 사용함으로써 모델의 성능이 일반적으로 상승하고 또한 학습하는데 있어 도메인에 따라 가성비가 좋은 데이터가 존재하는데 이를 잘활용해야한다고 합니다.
위 그래프는 모델에 따라 학습시켜야하는 데이터 학습 비용을 나타냈습니다. 또한 아래는 모델을 서빙하는데 필요한 장비의 비용입니다.
발표자분 께서는 계속해서 기업마다 적절한 모델과 비용을 계산하고 이를 운용해야한다고 강조합니다.
나의 후기
해당 컨퍼런스는 최근 대규모 언어모델의 강세로 개인 혹은 규모가 작은 기업에서 해당 기술을 어떻게 활용해야하는지 제시해주고 있다. 학부연구생으로 인공지능을 연구하려는 나에게 있어 본 컨퍼런스는 연구분야에서는 성능이 최우선적으로 여겨져 실용성이라는부분을 잘 고려하지 않는반면 실제로 기업에서 언어 모델을 학습하기 위해 가성비가 좋은 방향을 우선시해야하는 것을 알게 되었다.