최근 수정 시각 : 2024-12-14 19:33:45

OpenELM


생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind · DeepSeek
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형
+이미지
Exaone 3.5 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3 · DeepSeek
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}
OpenELM
Open Efficient Language Models
<colbgcolor=#333><colcolor=#fff> 개발 Apple
기능 언어 모델
공개 2024년 4월
라이선스 오픈 소스 소프트웨어[1]
링크 파일:홈페이지 아이콘.svg 파일:허깅페이스 아이콘.svg
1. 개요2. 종류3. 특징

[clearfix]

1. 개요

Apple에서 개발한 오픈 소스 소형 언어 모델(sLM).

2. 종류

M, B는 파라미터 수를 의미하며 각각 million, billion 단위이다.
Instruct는 사용자의 명령형 프롬프트에 대응하도록 학습된 모델이다.
MLX[2] 포팅도 가능하다.
  • OpenELM-270M
  • OpenELM-450M
  • OpenELM-1_1B
  • OpenELM-3B
  • OpenELM-270M-Instruct
  • OpenELM-450M-Instruct
  • OpenELM-1_1B-Instruct
  • OpenELM-3B-Instruct

3. 특징

소형 언어모델인 sLM 중에서도 작은 편에 속한다. 그렇기 때문에 다른 모델에 비해 성능은 떨어지지만 운영에 필요한 비용이 저렴하고 휴대폰이나 PC 등에서도 온디바이스로 비교적 잘 작동한다.

트랜스포머의 각 레이어에서의 파라미터 수를 변화시킴으로써 모델 전체의 파라미터를 효율적으로 배분하는 'layer-wise scaling'이라고 하는 기술을 채용했다.
구체적으로는, 입력에 가까운 레이어에서는 어텐션이나 피드 포워드를 위한 잠재 파라미터의 차원을 작게 하고, 출력에 가까워짐에 따라 서서히 레이어를 넓혀 간다. 이를 통해 제한된 파라미터 수에서 각 레이어에 적절한 수의 파라미터를 할당할 수 있다. 기존 언어 모델에서는 모든 레이어에서 같은 설정을 가지는 것이 일반적이었지만, 이 layer-wise scaling에 의해서 레이어 마다 다른 설정을 실시해, 파라미터를 보다 효과적으로 활용하는 것이 가능하게 된다. #
[1] 정확히는 Apple Sample Code License를 사용한다. [2] 애플 실리콘용 딥러닝 프레임워크