자신만만하지만 틀렸다: 중학생도 풀 수 있는 문제로 AI 모델 17개를 테스트했다
이 글은 학교 수준의 아주 쉬운 문제 6개로 오픈소스 대형 언어 모델 17개를 평가한다. 그 결과 6개 모델이 최소 1문제를 틀렸고, 2개 모델은 6문제 모두 오답이었다. 더 우려되는 점은 틀린 답변도 맞는 답변처럼 매끄럽고 자신감 있게 보였다는 것으로, 모델의 신뢰성과 기초 추론 능력에 큰 허점이 있음을 보여준다.
이 글은 학교 수준의 아주 쉬운 문제 6개로 오픈소스 대형 언어 모델 17개를 평가한다. 그 결과 6개 모델이 최소 1문제를 틀렸고, 2개 모델은 6문제 모두 오답이었다. 더 우려되는 점은 틀린 답변도 맞는 답변처럼 매끄럽고 자신감 있게 보였다는 것으로, 모델의 신뢰성과 기초 추론 능력에 큰 허점이 있음을 보여준다.