최근에 끝난 학년에 한 학급의 학습자는 퍼즐처럼 보였습니다. 그들은 열심히 일하고, 발전하고, 놀라울 정도로 표현력이 뛰어납니다. 하지만 이상하게도, 이 학습자들(인공지능 챗봇)은 종종 수학에 어려움을 겪습니다.
Open AI의 ChatGPT와 같은 챗봇은 종종 인간 수준의 유창함으로 시를 쓰고, 책을 요약하고, 질문에 답할 수 있습니다. 이러한 시스템은 학습한 내용을 기반으로 수학을 수행할 수 있지만 결과는 다양하고 틀릴 수 있습니다. 규칙 기반 계산을 수행하지 않고 확률을 결정하도록 미세 조정됩니다. 가능성은 정확성이 아니며 언어는 수학보다 더 유연하고 관대합니다.
노스웨스턴 대학교의 컴퓨터 과학 교수이자 인공지능 연구자인 크리스티안 해먼드는 “AI 챗봇은 수학을 하도록 설계되지 않았기 때문에 수학에 어려움을 겪습니다.”라고 말했습니다.
세계에서 가장 똑똑한 컴퓨터 과학자들이 모여서 만든 AI는 숫자에 대한 천재라기보다는 인문학에 더 가까운 듯합니다.
표면적으로 보면 컴퓨팅의 과거와 크게 다릅니다. 1940년대에 초기 컴퓨터가 등장한 이래로 컴퓨팅에 대한 좋은 요약 정의는 “스테로이드를 투여한 수학”이었습니다. 컴퓨터는 지치지 않고 빠르고 정확한 계산 기계였습니다. 숫자를 처리하는 것은 오랫동안 컴퓨터가 정말 잘하는 일로, 인간의 성과를 훨씬 능가합니다.
전통적으로 컴퓨터는 단계별 규칙을 따르고 구조화된 데이터베이스에서 정보를 검색하도록 프로그래밍되었습니다. 강력했지만 취약했습니다. 그래서 AI에 대한 과거의 노력은 벽에 부딪혔습니다.
그러나 10년 이상 전에 다른 접근 방식이 돌파구를 마련하여 놀라운 성과를 내기 시작했습니다. 신경망이라고 하는 기반 기술은 인간의 뇌를 느슨하게 모델로 했습니다.
이런 종류의 AI는 엄격한 규칙으로 프로그래밍되지 않고 방대한 양의 데이터를 분석하여 학습합니다. 흡수한 모든 정보를 기반으로 다음에 나올 단어나 구문을 예측하여 언어를 생성합니다. 인간이 하는 것과 비슷합니다.
“이 기술은 훌륭한 일을 하지만 모든 것을 하는 것은 아닙니다.” 해먼드는 말했다. “모두가 AI에 대한 답이 하나이기를 원합니다. 그건 어리석은 짓입니다.”
때때로 AI 챗봇은 해결책에 도달하기 위해 여러 단계가 필요한 간단한 산수 및 수학 단어 문제에 걸려 넘어지기도 하는데, 이는 최근 일부 기술 검토자에 의해 문서화되었습니다. AI의 숙련도는 향상되고 있지만 여전히 단점으로 남아 있습니다.
최근 심포지엄에서 AI 챗봇 튜터와 교사 조수를 실험하고 있는 교육 비영리 단체인 칸 아카데미의 최고 학습 책임자인 크리스틴 디세르보는 수학 정확도라는 주제를 소개했습니다. “많은 분들이 아시다시피, 그것은 문제입니다.” 디세르보가 교육자들에게 말했습니다.
몇 달 전, Khan Academy는 Khanmigo라는 AI 기반 튜터에 상당한 변경을 가했습니다. AI에 수학 문제를 풀라고 요청하는 대신 많은 숫자 문제를 계산기 프로그램으로 보냅니다. 계산기 프로그램이 완료되기를 기다리는 동안 학생들은 화면에 “수학 수행”이라는 단어와 머리를 흔드는 Khanmigo 아이콘을 봅니다.
DiCerbo는 대화형 챗봇이 교육에서 중요한 역할을 할 것이라고 낙관하며 “사실 우리는 수학을 하기 위한 도구를 사용하고 있습니다.”라고 말했습니다.
1년 이상 동안 ChatGPT는 일부 수학 문제에 대해 유사한 해결책을 사용했습니다. 큰 수의 나누기와 곱셈과 같은 작업의 경우, 챗봇은 계산기 프로그램에서 도움을 요청합니다.
OpenAI는 성명에서 수학은 “중요한 진행 중인 연구 분야”라고 말했으며, 과학자들이 꾸준히 진전을 이룬 분야라고 밝혔습니다. 이 회사는 새로운 버전의 GPT가 시각적 인식과 수학적 추론이 필요한 수천 개의 문제가 있는 공개 데이터베이스에서 거의 64%의 정확도를 달성했다고 밝혔습니다. 이는 이전 버전의 58%에서 증가한 수치입니다.
AI 챗봇은 종종 방대한 양의 관련 교육 데이터(교과서, 훈련 및 표준화된 시험)를 소비했을 때 뛰어난 성과를 보입니다. 그 효과는 챗봇이 이전에 매우 유사하거나 동일한 질문을 보고 분석했다는 것입니다. ChatGPT의 기반이 되는 기술의 최신 버전은 고등학생을 대상으로 한 수학 SAT 시험에서 89번째 백분위를 기록했다고 회사는 밝혔습니다.
수학에서 이 기술의 불규칙한 성과는 AI 커뮤니티에서 이 분야에서 앞으로 나아갈 최선의 방법에 대한 열띤 토론에 활력을 불어넣습니다. 대체로 두 진영이 있습니다.
한 쪽에는 AI 챗봇을 구동하는 대규모 언어 모델로 알려진 고급 신경망이 꾸준한 진보와 궁극적으로 인공 일반 지능(AGI)으로 가는 유일한 길이라고 믿는 사람들이 있습니다. AGI는 인간의 뇌가 할 수 있는 모든 것을 할 수 있는 컴퓨터입니다. 이는 실리콘 밸리의 대부분에서 지배적인 견해입니다.
하지만 대규모 언어 모델에 더 많은 데이터와 컴퓨팅 화력을 추가하는 것만으로 충분한지 의문을 제기하는 회의론자들도 있습니다. 그중에서도 두드러진 인물은 Meta의 수석 AI 과학자인 Yann LeCun입니다.
LeCun은 대규모 언어 모델은 논리에 대한 이해가 부족하고 상식적 추론이 부족하다고 말했습니다. 그는 필요한 것은 더 광범위한 접근 방식이라고 주장하는데, 이를 “세계 모델링”이라고 부르거나 인간처럼 세상이 어떻게 작동하는지 학습할 수 있는 시스템이라고 합니다. 그리고 이를 달성하려면 10년 정도 걸릴 수 있습니다.
하지만 그동안 Meta는 대규모 언어 모델인 LLaMA를 기반으로 Facebook, Instagram, WhatsApp을 포함한 소셜 미디어 서비스에 AI 기반 스마트 어시스턴트 소프트웨어를 통합하고 있습니다. 현재 모델은 결함이 있을 수 있지만 여전히 많은 작업을 수행합니다.
데이비드 페루치는 2011년에 역대 최고의 인간 “제퍼디!” 플레이어를 이긴 IBM의 유명한 왓슨 컴퓨터를 만든 팀을 이끌었습니다. 대부분의 컴퓨터 과학자와 마찬가지로 페루치는 최신 AI 기술이 의심할 여지 없이 인상적이라고 생각합니다. 하지만 주로 언어 능력 때문이지 정확성 때문이 아닙니다. 그의 스타트업인 Elemental Cognition은 금융, 여행, 약물 발견과 같은 분야에서 비즈니스 의사 결정을 개선하는 소프트웨어를 개발합니다. 대규모 언어 모델을 한 가지 요소로 사용하지만 규칙 기반 소프트웨어도 더 많이 사용합니다.
페루치는 그 구조화된 소프트웨어가 현재 은행, 공급망, 항공 교통 관제와 같은 세계의 필수 시스템을 많이 운영하는 컴퓨팅 인프라라고 말했습니다. 그는 “정말 중요한 많은 것들에 대해 고통스러운 정밀성이 필요합니다.”라고 말했습니다.
뉴욕의 고등학교 수학 교사인 커크 슈나이더는 AI 챗봇이 교육에 침투하는 것을 불가피하다고 본다고 말합니다. 학교 관리자는 이를 금지하려고 할 수 있지만 학생들은 이를 사용할 것이라고 그는 말했습니다.
슈나이더는 여전히 몇 가지 불만이 있습니다. “그들은 보통 괜찮지만, 보통 수학에서는 충분히 좋지 않습니다. 정확해야 합니다.”라고 그는 말했습니다. “옳아야 합니다.”
하지만 가끔씩 실수하는 것은 가르치는 기회가 되었습니다. 슈나이더는 종종 자신의 수업을 소규모 학생 그룹으로 나누고, 챗봇 답변은 토론의 초점이 될 수 있습니다. 여러분의 답변을 봇의 답변과 비교해보세요. 누가 옳을까요? 각자 어떻게 해결책에 도달했을까요?
“그것은 그들에게 비판적인 시각으로 사물을 보는 법을 가르치고 비판적 사고를 날카롭게 합니다.”라고 그는 말했습니다. “다른 사람에게 묻는 것과 비슷합니다. 그들이 옳을 수도 있고 틀릴 수도 있습니다.”
그것은 그의 학생들에게 인생 교훈처럼 보이며, 피타고라스 정리를 잊은 후에도 오랫동안 기억할 만한 교훈입니다. AI 프로그램이 말하는 모든 것을 믿지 마세요. 너무 믿지 마세요.
본 기사는 원래 뉴욕 타임스에 게재되었습니다.
Economy Now 뉴스레터에 가입하면 더 많은 비즈니스 뉴스를 받아볼 수 있습니다.