
Image by ThisisEngineering, from Unsplash
연구자들이 OpenAI의 봇이 수학 천재성을 보여주고 있다고 말합니다
세계적인 수학자 30명이 비밀리에 UC 버클리에서 모여 OpenAI의 ‘o4-mini’라는 강력한 인공지능을 테스트했습니다. 이 봇은 주말 경쟁에서 가장 어려운 수학 문제를 받았는데, 참가자들은 그것의 대답에 놀라워했습니다.
시간이 급한가요? 여기 빠른 사실들이 있습니다:
- 수학자들은 AI 훈련 데이터를 오염시키지 않기 위해 Signal을 사용했습니다.
- AI는 실시간 문제 해결 세션 중에 새로운 개념을 배웠습니다.
- O4-mini는 인간과 같은 추론과 문헌 검토 전략을 모방했습니다.
“제 동료들 중에서는 이 모델들이 수학적 천재에 가깝다고 말하는 사람들도 있습니다,”라고 버지니아 대학의 수학자이자 이 행사의 심사위원인 Ken Ono가 Scientific American(SCI AM)에서 보도했습니다.
개발자들은 SCI AM이 보도한 바와 같이, 복잡한 문제 해결 작업을 처리할 수 있는 간결하면서도 강력한 버전으로 O4-mini를 훈련시켰습니다.
연구자들은 O4-mini가 비영리 조직으로서 Epoch AI가 개발한 FrontierMath 테스트 동안 300개의 미공개 수학 문제 중 20%를 해결했을 때 놀랐습니다. 전통적인 모델들은 2% 미만을 해결했다고 SCI AM이 지적했습니다.
“나는 수론에서 개방된 문제로서 내 분야의 전문가들이 인식할 수 있는 문제를 생각해냈습니다,”라고 오노는 SCI AM에 보도되었습니다. 이 봇은 먼저 문헌을 2분간 검토한 후, 더 간단한 버전부터 시도하고 그것을 해결했습니다. 그리고 “인용이 필요 없다. 왜냐하면 그 미스터리 번호는 내가 계산했으니까!”라고 덧붙였습니다.
“그게 점점 건방져지기 시작했습니다 […] 그것은 무섭다”라고 오노는 SCI AM에 보도되었습니다.
이 그룹은 AI 시스템이 해결하지 못하는 십 가지 문제를 발견했지만, 많은 참가자들은 이 기술의 빠른 발전에 놀랐습니다. “이것은 매우, 매우 뛰어난 대학원생이 해야 할 일입니다 – 사실, 그 이상입니다,” 라고 런던 연구소의 양휘 헤가 SCI AM에 보도된 바와 같이 말했습니다.
이 수학자들은 수학적 해법을 독립적으로 수행하는 대신 인간이 AI 시스템을 지휘할 수 있는 잠재적인 시나리오를 탐색했습니다. 온오는 경고했습니다, “일반화된 인공 지능이 결코 오지 않을 것이라고 말하는 것은 치명적인 실수입니다 […] 이 모델들은 이미 우리의 가장 뛰어난 대학원생들을 대부분 능가하고 있습니다,” 라고 SCI AM에 보도된 바와 같이 말했습니다.