Google의 벤치마크에 따르면 Gemini 1.5 Pro는 현재 시장에서 가장 성능이 뛰어난 LLM입니다.

https://the-decoder.com/gemini-1-5-pro-is-now-the-most-capable-llm-on-the-market-according-to-googles-benchmarks/
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
https://ai.google.dev/

Google에 따르면, Gemini 1.5 Pro는 이제 적어도 서류상으로는 시장에서 가장 성능이 뛰어난 LLM입니다.

구글 딥마인드는 지난 4개월 동안 Gemini 모델을 개선해 왔으며, 수석 연구원 Jeff Dean과 Oriol Vinyals는 대부분의 텍스트 및 비전 테스트에서 새로운 Gemini 1.5 Pro와 Gemini 1.5 Flash가 이전 버전과 OpenAI의 GPT-4 Turbo보다 성능이 뛰어나다고 주장합니다.

특히 Gemini 1.5 Pro는 19개 텍스트 벤치마크 중 16개, 21개 비전 벤치마크 중 18개에서 이전 버전인 Gemini 1.0 Ultra보다 뛰어난 성능을 보였습니다.

MMLU 일반 언어 이해 벤치마크에서 Gemini 1.5 Pro는 일반 5샷 설정에서 85.9%, 다수결 설정에서 91.7%를 기록하여 GPT-4 Turbo보다 우수한 성능을 보였습니다. 하지만 벤치마크 결과와 실제 사용 환경은 매우 다를 수 있다는 점에 유의하세요.

Gemini 1.5 Flash는 회귀율을 최소화하면서 매우 빠르게 설계되었습니다. 더 간결하고 효율적인 버전으로, 최대 200만 토큰의 컨텍스트 창에서 비슷한 성능을 제공하는 것을 목표로 합니다.

Google의 제프 딘과 오리올 빈얄스에 따르면, Gemini 1.5 Pro는 수학, 코딩, 멀티모달 작업에서 특히 뛰어난 성능을 보인다고 합니다. Google이 수학 작업에 최적화된 Gemini 1.5 버전을 벤치마킹한 결과, 1.5 Pro, Claude 3 Opus, GPT-4 Turbo보다 수학 작업에서 월등히 뛰어난 성능을 보였습니다.

Gemini 1.5 Pro의 핵심 기능은 최대 1,000만 개의 토큰으로 구성된 거대한 컨텍스트 창입니다. 이를 통해 모델은 긴 문서, 몇 시간 분량의 동영상, 며칠 분량의 오디오에서 데이터를 처리할 수 있습니다. Google은 Gemini 1.5 Pro가 설명서에서 새로운 프로그래밍 언어를 배우거나 500페이지 분량의 문법 지침과 몇 가지 예문으로 칼라망과 같은 희귀 자연어를 학습하여 인간과 같은 실력으로 말할 수 있다고 주장합니다.

천만 토큰의 맥락에서 특정 정보를 찾는 테스트에서 Gemini 1.5 Pro는 99.2%의 정확도를 보였습니다. 하지만 소위 '건초 더미에서 바늘 찾기'라고 불리는 이 테스트는 리소스 집약적인 단어 검색에 불과하기 때문에 그다지 유용하지 않습니다. CTRL+F가 더 효율적입니다.

보다 정교한 테스트는 답변의 모든 문맥을 사용하는 모델의 능력을 측정하고 "중간에서 길을 잃는" 문제를 확인합니다. 모델이 질문에 답할 때 임의의 정보를 무시하는 한, 거대한 컨텍스트 창은 제한적으로만 사용할 수 있습니다.

Gemini 1.5 Pro 및 1.5 Flash는 현재 사용 가능하며 Google AI Studio 플랫폼을 통해 무료로 테스트할 수 있습니다.