본문 바로가기
종목 이야기

GDPval이 증명한 변화: 인턴 벗어난 GPT-5.2, 이제 사람보다 빠르고 싸다

by 위즈올마이티 2025. 12. 17.
728x90
728x90



□ GDPval은 왜 다른 벤치마크보다 무거운가


GDPval은 일반적인 AI 성능 시험과 출발점부터 다름


문제를 얼마나 많이 맞히는지를 보는 테스트가 아니라,


미국 GDP를 구성하는 핵심 산업에서 실제로 수행되는 지식노동 과업을 평가 대상으로 삼음


금융 분석, 법률 문서 작성, 엔지니어링 검토 등 현업에서 실제 의사결정에 사용되는 결과물을 놓고,


사람이 만든 것인지 AI가 만든 것인지 구분하지 않은 상태에서 전문가가 더 나은 결과를 고르는 구조임


OpenAI는 GDP 개념에서 아이디어를 얻어 이 평가를 설계했으며, 총 40개 이상 직무 과업을 포함하는 실무형 평가라고 설명함


즉 형식이나 문장력이 아니라, 이 결과로 실제 결정을 내려도 되는가를 기준으로 판단하는 것이 핵심임


이 때문에 GDPval에서의 성과는 단순한 기술 데모가 아니라, 현업 투입 가능성에 대한 사전 검증 지표로 해석됨


□ AI는 언제 인턴을 벗어났는가


OpenAI에 따르면 GPT-5.2 Thinking 모델은 GDPval에서 인간 전문가와 비교했을 때


70.9%의 과업에서 우세하거나 동률(wins or ties)을 기록함


이전 세대 모델은 비슷한 평가에서 과반에 크게 못 미쳤으며, 사람의 보조 역할이나 초안 생성에 머무르는 경우가 많았음


즉 사람이 반드시 다시 고쳐야 하는 ‘유능한 인턴’ 수준이었음


하지만 GPT-5.2에 이르러서는 블라인드 평가 기준으로도 AI 결과물이 더 낫다고 선택되는 비율이 과반을 넘기기 시작함


의사결정 구조에서 과반을 넘는 순간 판단의 중심은 자연스럽게 이동함


이 시점부터 AI는 참고용 도구가 아니라, 최종 결과물 후보로 테이블 위에 올라오는 단계에 진입했다고 볼 수 있음


□ 기업 입장에서 계산이 무너지기 시작함


이 변화의 본질은 성능 그 자체보다 경제성에 있음


OpenAI는 GPT-5.2가 인간 전문가 대비 11배 이상 빠르며, 비용은 1% 미만 수준이라고 설명함


사람이 며칠에 걸쳐 만드는 재무 모델이나 전략 분석을, AI는 몇 분 만에 생성할 수 있는 구조가 됨


이쯤 되면 기업의 질문은 바뀜


AI를 써도 될까가 아니라, 굳이 이 업무를 사람에게 맡길 이유가 있는가로 이동함


실제로 기업 내부에서 먼저 바뀌는 것은 대규모 감원이 아니라 업무 흐름임


사람이 처음부터 끝까지 만들던 구조에서, AI가 1차 결과물을 만들고 사람이 검증·승인하는 방식으로 빠르게 전환됨


한 번 이 구조가 자리 잡히면 다시 예전 방식으로 돌아가기 어렵다는 점에서, 변화는 되돌릴 수 없는 방향성을 가짐


□ 정확도가 해결되면 남는 건 무엇인가


기존 생성형 AI의 가장 큰 한계는 정확도였음


계산 실수, 중간 논리 비약, 그럴듯하지만 틀린 결론 때문에 금융·공학 분야에서는 참고용으로만 쓰이는 경우가 많았음


GPT-5.2는 수학적 추론 능력을 평가하는 AIME 2025에서 도구 미사용 기준 100% 점수를 기록했다고 공개됨


이는 정확도가 크게 개선됐음을 보여주는 지표로 해석됨


다만 OpenAI 역시 중요한 의사결정에서는 검증이 필요하다는 단서를 함께 붙이고 있음


즉 환각이 줄고 정확도가 개선됐지만, 완전 자동화가 아니라 검증 구조를 전제로 한 실전 투입 단계에 가까움


정확도가 일정 수준을 넘어서면, AI 도입의 문제는 기술이 아니라 책임과 제도의 영역으로 이동함


누가 최종 책임을 질 것인지, 어디까지를 AI 판단으로 허용할 것인지가 새로운 쟁점이 됨


□ 마무리하며


GDPval이 던지는 메시지는 비교적 분명함


빠르고, 비용 효율적이며, 정확도가 개선된 결과물이 사람과 구분하지 않는 블라인드 평가에서 우세하게 선택된다면


AI는 더 이상 보조 도구에 머무는 것이 아닌 조직 안에서 결과를 생산하는 주체로 이동하게 됨


AI의 진짜 위협은 지능 그 자체가 아니라 경제성임


인간을 이기는 순간보다, 인간보다 싸지는 순간이 훨씬 결정적임


GPT-5.2는 그 경계선을 넘어서는 첫 사례로 평가받고 있음

728x90
728x90

댓글