큰 수의 법칙은 어느 편일까?

큰 수의 법칙과 엔트로피의 역설
남원식's avatar
Jun 10, 2025
큰 수의 법칙은 어느 편일까?

미국 국채와 한국의 초전도체

💡
a = 2
a + 1 = 3
당장 12살 어린 동생을 갖다 앉혀놔도 납득할 수식이다.
 
💡
a = 2
a + 2b + 3c = 13
그렇다면 이 수식은 어떨까?
답을 내라고 협박하면 b, c 값의 가능성들 중에
어떻게든 타당한 힌트를 찾아야 할 것이다.
 
💡
미국 국채 30년물 가격은 10년물 가격보다 변동성이 크다.
갑자기 10년안에 한국이 초전도체를 상용화해서 ???: 그러면 한국이 기축통화국이 되겠지?
햄버거 먹다가 여기저기서 달러 보따리 들고 한국으로 올 확률보다,
갑자기 30년안에 한국이 초전도체를 상용화해서,
햄버거 먹다가 여기저기서 달러 보따리 들고 한국으로 올 확률이 높기 때문이다.
 
여기에 시계열로 이 두 지표 간의 추이를 비교해보면, 더욱 두드러진다.
미국채 10년 vs 30년 변동성 비교
미국채 10년 vs 30년 변동성 비교
즉, 미국 장기채가 변동성이 더욱 크다는 얘기는
실제로 사건이 일어날 가능성이 있는 여러 변수들이 더욱 많다는 뜻이다.
 
미국 국채를 수식으로 표현한다면, a + 2b + 3c = 13 이 정도의 변수들만 갖고는 택도 없다. a부터 z까지 그 이상 생각나는 문자를 다 넣어도 한참 부족하다. 트럼프가 머릿속으로 “오늘 점심 뭐먹지”라는 결정을 수식화할 수 있을정도까지 구체화할 수 있다면, 그제서야 가능성이라도 보이지 않을까 싶다.

LLM과 트럼프 점심메뉴

그 가능성은 LLM이 나름 증명하고 있다.
우리가 아는 모든 대규모 언어 모델들의 근간이 되는 ”Attention is all you need” 논문의 결론은 결국 “대한민국의 수도는 ” 이라는 문장의 다음 글자는 무엇이 적합할까를 열심히 병렬 연산(고민)하다가,
“서울”이라는 토큰과의 거리(비슷)가 제일 가깝네?를 도출할 수 있다는 가능성을 보여준 것이다.
병렬 연산이라 함은 아래 수식에 500배 1000배 정도 많은 변수들이 나열된 수식들을 동시에 계산하여
  • a + 2b + 3c = 13
    • 파리 = [10, 20, 30]
    • 서울 = [1, 1, 1]
서울이 좀 더 의미적으로 유사함을 도출하는 것이다.
1536차원(변수 개수) 값들의 저장 [a, b, c…x, y, z]
1536차원(변수 개수) 값들의 저장 [a, b, c…x, y, z]
 
1536차원 → 3차원 시각화
1536차원 → 3차원 시각화
자, 그러면 Perplexity한테 트럼프와의 점심메뉴를 추천시켜보자.
Perplexity는 구축해놓은 RAG 파이프라인을 기반으로 ‘트럼프’, ‘점심메뉴’ 등과의 의미적 유사성을 갖는 자료들을 Vector Search를 통해 정보를 찾고, LLM을 통해 아주 생산적인 답변을 도출해낸다.
이제 트럼프 점심메뉴도 맞춤으로써 주식으로 대박날 가능성이 생겼다.
notion image
notion image
즉, 대한민국 수도도 모르던 언어 모델이 트럼프 점심메뉴까지 아주 확률적으로 정답에 가까운 답변을 내놓게 된 이론적 배경은 아래와 같이 정리할 수 있다.
  • 큰 수의 법칙으로 거의 모든 인터넷 상의 데이터를 ‘대한민국’ ‘수도’ ‘서울’ 등의 의미적 유사성 학습
  • 학습하지 않은 정보들은 의미적 유사성을 기반으로 임베딩하여 고차원 벡터 공간 상에 저장하고, 트럼프 점심메뉴와 확률적으로 유사한 정보들을 적절하게 가져오기

추상화와 구체화

객체지향 프로그래밍과 떡볶이 밀키트

떡볶이 밀키트에 포함된 양념장은 양념장의 구체적인 레시피까지 포함하진 않는다.
상당 부분이 추상화되어 제공되고, 양념장 레시피 단계까지 구체화 되지 않는다.
 
하지만, 생산자 입장에서 떡볶이 뿐만 아니라 육개장, 갈비탕 밀키트까지 여러 제품들을 공장에서 생산하다보니
양념장 간의 구분이 어려워졌고, 독립적이고 신뢰성 있는 생산의 필요성이 생겼다.
큰 문제를 작게 쪼개는 것이 아니라, 먼저 작은 문제들을 해결할 수 있는 객체들을 만든 뒤, 이 객체들을 조합해서 큰 문제를 해결하는 상향식(Bottom-up) 해결법을 도입한 것이다. 이 객체란 것을 일단 한번 독립성, 신뢰성이 높게 만들어 놓기만 하면 그 이후엔 그 객체를 수정 없이 재사용할 수 있으므로 개발 기간과 비용이 대폭 줄어들게 된다.
즉, 객체 지향 프로그래밍은 떡볶이 떡과 양념장, 양념장 풀기가 담겨서 독립적으로 운용될 수 있는 환경을 만들어주었다.
 

테슬라 로보택시와 의사결정의 추상화

기독교 성경에서 가장 많이 반복되는 문구는 ‘두려워하지 말라’라고 한다.
승리의 여신 니케의 어원인 Nike 또한 JUST DO IT을 내건다.
이 강렬한 수사들이 수천 년간 유효한 이유는 역설적으로 인간을 움직이는 가장 강력한 변수(a, b, c, … , z)가 바로 두려움이라는 무형의 직감이기 때문이다. 보험회사 불패 UNH
 
인류는 생존을 위협하는 수만 가지 복잡한 변수를 ‘두려움’이라는 하나의 추상적인 감정으로 압축해 신속하게 회피함으로써 살아남았다. 즉, 두려움은 고차원의 위험 요소를 저차원으로 압축한 ‘생존을 위한 추상화’이다.
하지만 우리가 로보택시를 쉽게 받아들이지 못하는 지점이 바로 여기다. ‘안전’이라는 영역은 인간이 가진 가장 보수적이고 구체적인 본능의 영역이며, 이를 타인 심지어 기계 에게 맡기는 것은 나의 생존 필터를 포기하는 일이기 때문이다.
 
로보택시가 도로 위에서 ‘완벽한 주행’이라는 질서를 창조하기 위해서는, 그 이면에서 수조 개의 데이터를 연산하고 예측 불가능한 엣지 케이스(Edge Case)들을 처리하는 거대한 무질서(엔트로피)를 흡수해야 한다.
인간의 의사결정이 ‘직감’이라는 이름으로 복잡성을 추상화하듯, AI 역시 블랙박스 안에서 추상적인 방식으로 의사결정을 내린다. 떡볶이 밀키트의 양념장 배합보다 수만 배는 더 복잡한 도로 위 변수들을 처리하면서 말이다.
결국 로보택시의 합법화는 기술적 완성이 아니라, 기계가 만들어내는 그 ‘추상적인 질서’를 인간의 ‘추상적인 두려움’이 수용할 수 있느냐의 결단 문제가 될 것이다.

지브리와 추상적인 패턴 인식

notion image
“그래서 AI로 뭘 할 수 있는데?” 아직 로보택시도 상용화되지 않은 시점에서 AI가 인간의 일상생활까지 깊게 와닿을 여지는 아직 없어보였다. GPT의 놀라운 지브리 구현 능력은 생산적이냐 아니냐를 떠나서 많은 이들에게 반복되는 패턴을 인식하는 행위에 대한 AI의 잠재력을 가장 직관적으로 체감시켜주지 않았나 싶다.
notion image
AI의 의사결정은 그나마 CNN 모델의 패턴 인식 단계를 담은 특징 맵의 시각적 표현을 통해 가장 직관적으로 이해할 수 있다.
반복되는 특징을 추출하여, 복잡한 시각 정보를 단순한 레이블로 압축한다. 그 사이는 위 사진과 같이 개양이처럼 애매한 불쾌한 사진이지만, 고양이에 가까운 사진으로 갈 수록 고양이만의 패턴을 정확히 인식하고 구분한다.
 
notion image
현재 많이 쓰이는 디퓨전 모델 또한 압축된 정보를 추상화 단계에서 복잡한 시각 정보로 구체화해가며, Denoising 통해 확률적으로 요구사항에 근접한 결과를 내놓는다.
 
현재 바둑에서 가장 강한 AI는 KataGo이며, 이는 인간의 계보 없이 순수 자가대국으로 학습한 AI이다. 흥미롭게도, 인간 기보에 의존한 초기 AlphaGo 모델들보다 순수 자가대국 방식이 더 우수한 성능을 보이고 있다. 가장 창의적이라고 논외의 영역으로 여겨지던 예술의 영역 조차도 나름 누적된 패턴이 있었음을 말하고 있다.
 
인간의 업무 또한 패턴화할 수 있었다.
단적인 예로, Cursor는 이름과 어울리게 “다음 커서 위치 예측”을 실로 잘 구현되었고, 내가 행할 다음 단순 업무 및 반복 업무를 빠르게 진행할 수 있도록 tab만 누르면 알아서 실제로 내가 움직이고 싶었던 마우스 커서 위치로 이동하여, 패턴화된 업무는 자동화해준다.

폭포수와 에스키모 사냥개

notion image
notion image
소프트웨어 공학에는 SDLC(소프트웨어 개발 생명 주기, Software Development Life Cycle)를 어떻게 효율적으로 관리할지에 대한 내용이 있다.
 
WaterFall은 말그대로 폭포수처럼 Top-Down 방식으로,
높은 추상화 수준에서 시작하여, 단계적 구체화를 진행한다.
WaterFall 장단점
notion image

주요 특징

  • 순차적 접근: 폭포수 모델은 요구사항 분석, 설계, 구현, 테스트, 배포, 유지보수의 단계를 순서대로 진행합니다. 각 단계는 명확한 산출물을 가지고 완료되어야 다음 단계로 넘어갑니다.
  • 고정된 요구사항: 프로젝트 초기 단계에서 요구사항이 상세하게 정의되고, 개발 과정에서 변경되지 않도록 설계됩니다.
  • 문서화 강조: 모든 단계에 걸쳐 상세한 문서화를 통해 진행 상황을 명확히 기록하고 추적할 수 있습니다. 이로 인해 일정과 비용을 미리 예측할 수 있습니다.

장점

  • 명확한 구조: 각 단계가 명확히 정의되어 있어 관리가 용이하고, 프로젝트의 진행 상황을 쉽게 파악할 수 있습니다.
  • 초기 계획의 중요성: 개발 초기부터 명확한 목표와 요구사항을 설정할 수 있어, 계획에 따라 일정과 비용을 예측할 수 있습니다.

단점

  • 변경 관리의 어려움: 초기 단계에서의 오류나 요구사항의 변경이 있을 경우, 후반 단계에서 이를 수정하는 데 많은 비용과 시간이 소요됩니다.
  • 유연성 부족: 요구사항이 자주 변경되는 프로젝트나, 반복적이고 점진적인 개선이 필요한 프로젝트에는 부적합할 수 있습니다.
  • 초기 결함의 문제: 후반 단계에서 발견된 문제는 이전 단계로 되돌아가 수정하기 어려워, 전체 프로젝트의 성과를 저해할 수 있습니다.

요약

폭포수 모델은 요구사항이 명확하고 변화 가능성이 적은 프로젝트에서 명확하고 체계적인 개발을 가능하게 하지만, 오늘날의 빠르게 변화하는 소프트웨어 개발 환경에서는 그 한계가 분명하기 때문에, 보다 유연한 애자일(Agile) 방법론이 대안으로 많이 사용되고 있습니다. 그러나 특정 산업 및 프로젝트 조건에 따라 폭포수 모델이 여전히 효과적일 수 있습니다.
 
이에 반해 Agile은 변화가 빠르게 일어나는 환경에서 프로젝트를 성공적으로 수행하기 위해, 반복적이고 점진적인 개발과 고객 피드백을 통합하여 지속적으로 개선되는 결과물을 제공하는 것을 목표로한다.
💡
Manifesto for Agile Software Development
“공정과 도구보다 개인과 상호작용
포괄적인 문서보다 작동하는 소프트웨어
계약 협상보다 고객과의 협력
계획을 따르기보다 변화에 대응하기
가치있게 여긴다. 이 말은, 왼쪽에 있는 것들도 가치가 있지만,
우리는 오른쪽에 있는 것들에 더 높은 가치를 둔다는 것이다.”
Agile 장단점
notion image

주요 특징

  • 반복적 개발과 스프린트: 프로젝트가 짧은 주기, 즉 스프린트로 나뉘어 각 주기마다 기능성 있는 제품을 개발하고 평가합니다. 각 스프린트는 일반적으로 1~4주 단위로 진행되며, 결과물에 대한 평가와 다음 단계로의 계획을 포함합니다.
  • 고객 피드백 통합: 개발 과정에서 지속적으로 고객의 피드백을 반영하여 요구사항을 조정하고, 이에 따라 제품을 개선합니다. 고객과의 긴밀한 협업을 통해 프로젝트의 방향성과 목표를 수시로 확인하고 조율합니다.
  • 팀 중심의 협업: 구성원 간의 원활한 의사소통과 협업을 중시하며, 자율적인 팀 운영을 통해 창의적이고 효율적인 문제 해결을 도모합니다.

장점

  • 변화 수용력: 고객 피드백에 기반하여 요구사항의 변화에 신속하게 대응할 수 있으며, 프로젝트 목표의 변경에도 유연하게 대처할 수 있습니다.
  • 지속적인 개선: 지속적으로 프로젝트의 방향을 재평가하고 개선할 수 있는 구조적 특성을 가집니다.
  • 강화된 협업: 팀 내 및 팀 간의 협력을 강화하여 문제 해결과 결과물의 품질을 높입니다.

단점

  • 고객 참여 요구: 성공적인 프로젝트 진행을 위해 고객의 지속적이고 적극적인 참여가 필요합니다.
  • 계획의 복잡성: 각 스프린트마다 철저한 계획과 조정이 요구되며, 이는 추가적인 관리 노력을 필요로 할 수 있습니다.
  • 복잡한 의존성 관리의 어려움: 의존성이 복잡한 프로젝트에서는 조율이 어려울 수 있습니다. 각 부분의 독립성이 요구될 경우 난관에 빠질 수 있습니다.

요약

애자일 방법론은 변화가 빈번하고 요구사항이 명확하지 않은 프로젝트 환경에서 특히 효과적입니다. 이는 고객의 요구와 시장의 변화를 신속히 반영할 수 있도록 설계되어 있으며, 소프트웨어 개발뿐만 아니라 다양한 산업 분야에서도 광범위하게 채택되고 있는 방법론입니다. 애자일 환경에서는 보다 빠르고 유연하게 제품을 개발하고 개선할 수 있는 장점을 누릴 수 있습니다.
1970년대부터 쓰이던 WaterFall 방식과 현재 많은 조직에서 올바르게(?) 적용되는 Agile 방법론과 비교했을 때,
Agile은 외부 자극가속도에 많은 영향을 받아 개선된 방법론임이 체감된다.
 
notion image
에스키모의 사냥개들 더욱 날카로운 이빨들이 주어졌지만,
아이너리하게도 개선된 방법론은 더욱 높은 빈도수와 밀도 높은 상승곡선을 요구받는다.
이는 상당한 효율화 위에 만족의 역치 또한 고차원으로 얹어져서 생긴
외부자극(=유저의 목마름)과 가속도(=도구 개선)
폭포가 떨어지기까지의 시간을 기다려주지 않는 것이다.
 

큰 수의 법칙은 결국 어느 편일까?

우리는 지금까지 미국 국채의 변동성부터 LLM의 고차원 벡터, 로보택시의 추상적 의사결정, 그리고 Agile 방법론까지 살펴보았다. 이 모든 현상의 공통점은 데이터(변수)가 많아질수록 정답에 가까워지는 듯하지만, 동시에 우리가 통제할 수 없는 무질서도 기하급수적으로 늘어난다는 것이다.

엔트로피의 역설: 질서의 대가

여기서 우리는 이 글을 관통하는 가장 무거운 질문과 마주한다. 왜 더욱 민첩하게 움직이고 AI 도구를 쓰는데도 우리는 더 여유로워지지 않는가? 제레미 리프킨은 그의 저서 《엔트로피》에서 그 이유를 단 한 문장으로 꿰뚫는다.
"To create order, one must generate greater disorder elsewhere in the system." Jeremy Rifkin, 《Entropy》
우리가 'Agile'이라는 방법론으로 조직의 질서를 잡으려 노력할수록, 그 에너지는 외부 세계로 흘러가 유저의 더 빠른 요구사항시장의 더 높은 변동성이라는 더 큰 엔트로피를 만들어낸다. 커서(Cursor)가 내 다음 코드를 예측해주는 '질서'를 선사할 때, 나는 그만큼 더 많은 코드를 더 빨리 생산해야 하는 '무질서한 속도전'에 던져지는 것과 같다.
큰 수의 법칙은 결국 '적응하는 자'의 편이다. 하지만 그 적응은 단순히 기술을 익히는 것이 아니라, 변화의 패턴 자체를 학습하는 학습을 위한 학습이어야 한다. 그때 우리는 비로소 생산성 혁명이 가져올 거대한 무질서의 파도를 타고 새로운 질서의 세계로 나아갈 수 있을 것이다.
 
Share article

garret.log