2026/06/03/google-deepmind-unveils-gemma-4-12b-an-encoder
Google DeepMind, 노트북에서 구동 가능한 encoder-free multimodal 모델 Gemma 4 12B 공개
편집자 요약
Google DeepMind가 16GB VRAM 또는 unified memory 환경에서 로컬 실행을 목표로 한 Gemma 4 12B를 공개했습니다. 이 모델은 별도 multimodal encoder 없이 vision·audio 입력을 LLM backbone으로 직접 처리하며, 중형 Gemma 모델로는 처음 native audio 입력을 지원합니다.
맥락
Gemma 4 12B는 고성능 multimodal AI를 클라우드가 아닌 개인 노트북과 edge 환경으로 끌어내리려는 흐름을 보여줍니다. Apache 2.0 라이선스와 Multi-Token Prediction drafters 지원은 개발자 생태계 확산과 로컬 AI 응용의 실용성을 높일 가능성이 큽니다.
본문
Gemma 4 12B: A unified, encoder-free multimodal model
댓글
토론
> geekhaus:~$ 다음 읽을거리?

