오늘날 해외에서 멀티모달에 대한 관심이 커짐에 따라 foundation model 및 benchmark dataset이 다양하게 제작되고 공유되고 있습니다.
하지만, 해외 멀티모달 benchmark 경우 질문/답변에 대한 구성이 영어로 이루어져 있어, 한국어 능력에 대한 평가를 정확하게 할 수 없습니다.😵
이에 따라, 저희는 기존에 한국어 기반 VLM을 평가할 수 있는 데이터셋이 많지 않다는 것을 인지하였고,
오픈소스 기여와 발전을 위해 🔥KO-VLM Benchmark dataset🔱를 제작하게 되었습니다.🤗
AI-Hub와 공공데이터포털에서는 한국어 기반의 Vision Question Answering (VQA) 데이터셋과 문서들을 풍부하게 제공하고 있습니다.🌎 저희는 AI-Hub에서 제공하는 2가지 데이터셋과 공동데이터포털에서 제공하는 여러가지 문서들을 수집 및 활용하여 🔱KO-VLM Benchmark dataset🔱 제작하였습니다. 이를 활용해 국내/외 있는 Vision-Language Model (VLM)들의 한국어 문서 및 질문 이해 능력을 측정할 수 있습니다.😎
KO-VLM Benchamrk dataset🔱은 총 3가지 데이터셋으로 구성되어 있습니다.
- KO-VQA🔱: `다양한 도메인의 한국어 문서 이해 능력` 및 `문서 기반의 답변 추론 능력`에 대해 평가
- KO-VDC🔱: `한국어 시각화 도식 자료 이해 능력` 및 `도식 기반의 설명문 생성/이해 능력`에 대해 평가
- KO-OCRAG🔱: `복잡한 구조의 한국어 문서 OCR 능력` 및 `문서에 등장하는 Visual Context parsing 능력`에 대해 평가
위의 3가지 데이터셋은 기존 한국어 VLM Benchmark 데이터셋과는 확연한 차별점이 있습니다.
실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟)
문서와 도식을 기반으로 정답을 찾아야하는 문제들로 구성. (추론형🌟)
산업에서 필요로 하는 VLM의 활용측면에서의 성능을 측정하는 목적. (산업성🌟)
각각의 VLM 데이터셋에 대한 자세한 리뷰 및 코드 설명은 아래를 참고해주세요😋 1️⃣KO-VQA🔱 2️⃣KO-VDC🔱 3️⃣KO-OCRAG🔱
저희 KO-VQA 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
- 한국어 기반 문서에 대한 이해
- 문서에 기반한 질문에 대한 VLM의 답변 능력
- 문서를 기반으로 질문에 대한 대답을 추론하는 능력
- 문서를 기반으로 질문에 대한 대답을 찾는 능력
- VLM 답변과 문서와의 alignment (숫자 표기 단위, 답변에 대한 표현 방법 등등)
자세한 KO-VQA에 대한 설명과 예제들은 KO-VQA README🔱 참고해주세요!
저희가 제작한 KO-VQA 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟)
15개의 다양한 domain으로 구성된 문서를 활용. (다양성🌟)
저희 KO-VDC 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
- 복잡한 한국어 기반 표/도식/그래프 이해 능력
- 한국어 기반 표/도식/그래프에 대한 적절한 문서 설명문 생성 능력
- Long-Context 질문에 대한 모델의 답변 능력
자세한 KO-VDC에 대한 설명과 예제들은 KO-VDC README🔱 참고해주세요!
저희가 제작한 KO-VDC 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
실제 한국어 문서를 활용하여 데이터셋을 제작. (현실성🌟)
표/도식/그래프 기반 문서 생성 능력. (산업성🌟)
저희 KO-OCRAG 데이터셋에서는 아래와 같은 VLM 모델의 성능을 평가할 수 있습니다.🔥🔥
- 복잡한 한국어 문서 구조 이해
- 고해상도 한국어 문서 OCR 능력
- 문서에 존재하는 visual information에 대한 text description 생성 능력
- RAG parsing에 적합한 description 생성 능력
자세한 KO-OCRAG에 대한 설명과 예제들은 KO-OCRAG README🔱 참고해주세요!
저희가 제작한 KO-OCRAG 데이터셋은 기존 한국어 VLM 평가 데이터셋들과 비교하였을 때 아래와 같은 주요한 차별점이 있습니다!
실제 산업에서 활용되는 다양한 형식의 한국어 문서. (현실성🌟)
고해상도의 다양하고 복잡한 구조 및 풍부한 이미지/도식을 가진 한국어 문서. (다양성🌟)
RAG parsing에 적합한 description 생성 능력. (산업성🌟)
| Model | KO-VQA (Acc.) | KO-VDC (Acc.) | KO-OCRAG (Avg.) |
|---|---|---|---|
Gemini-2.5-pro |
91.80 | 97.50 | NaN |
Gemini-2.5-flash |
85.73 | 85.50 | NaN |
Qwen2.5-VL-32B-Instruct |
60.48 | NaN | NaN |
Qwen2.5-VL-7B-Instruct |
53.27 | 39.50 | NaN |
Ovis2.5-9B (w/ thinking) |
NaN | NaN | NaN |
Ovis2.5-2B (w/ thinking) |
34.07 | 32.25 | NaN |
VARCO-VISION-2.0-14B |
NaN | NaN | NaN |
VARCO-VISION-14B-HF |
43.67 | 4.00 | NaN |
Gukbap-Ovis2-16B |
34.80 | NaN | NaN |
Ovis2-16B |
34.20 | NaN | NaN |
gemma-3-27b-it |
34.20 | NaN | NaN |
Gukbap-Gemma3-27B-VL |
33.60 | NaN | NaN |
Gukbap-Gemma3-12B-VL |
30.13 | 30.25 | NaN |
Ovis2-34B |
32.50 | NaN | NaN |
Gukbap-Ovis2-34B |
31.93 | NaN | NaN |
gemma-3-12b-it |
28.73 | 30.25 | NaN |
Bllossom-AICA-5B |
20.67 | 2.00 | NaN |
KO-OCRAG:
{(1-WER)+(1-CER)+rough2}/3
make installuv 환경을 사용합니다.
This research was supported by the Korea Institute for Advancement of Technology (KIAT) grant funded by the Korean Government (MOTIE) (RS-2024-00416131, HRD Program for Industrial Innovation)
- 데이터셋 설명추가
- 전체적인 Code Update
- 모델 벤치마크 완료하기