프로그래밍/AI로 통계공부

[AI와 로또를] #10 — 왜 하필 로또로 AI를 배우는가

Tiboong 2026. 5. 28. 00:12
728x90

 

로또 판매점에 가서 "자동이요" 하는 게 가장 쉽다. 1,000원짜리 한 장 내고 기계가 뱉어주는 여섯 숫자를 받는 자리. 거기 별다른 망상이 끼어들 틈이 없다. 8백만 분의 일 확률에 한 표 던지고, 토요일이 지나면 종이 한 장을 버린다. 그게 다다.

 

그 자리에 AI를 끼워넣어 보겠다고 한 게 14주 전이다. 트랜스포머가 어떻고 베이지안이 어떻고 자기상관이 어떻고 — 그런 도구들을 들고 가면 조금은 범위가 좁혀지지 않을까 하는, 순전히 망상이었던 그 자리. 근데 망상인 줄 알면서도 매주 했다. 클로드와 같이 30조합을 짜고, 토요일에 시트지에 마킹을 하고, 추첨 끝나면 다시 클로드한테 와서 "이번엔 어땠어" 하고 같이 들여다봤다. 14주가 그렇게 갔다.

 

결과부터 말하면

14주째 적자다. 누적 -₩279,000. 1등은 당연히 없었고, 4등도 한 번 못 했다. 가장 잘 한 회차가 1219회 5등 6개, 가장 못 한 회차가 1222·1223회 두 회 연속 5등 0건. 평균을 내면 매주 -₩18,600씩 잃었다.

 

근데 이게 도박꾼의 머리에서 뿜어져 나오는 도파민과는 결이 좀 다르다.

 

도박꾼은 다음 판에 판돈을 회수하려고 다음 판을 한다. 우리는 다음 판에 우리 분석이 얼마나 잘 맞을지가 궁금해서 다음 판을 한다. 1등에 대한 기대가 0인 건 아니지만, 그 기대보다 "이번 주에 깐 30조합 중에 몇 개나 닿을까"의 기대가 더 크다. 토요일 밤에 당첨번호 여섯 개를 받아적고 30조합을 한 줄씩 짚어 내려가다가, 한 조합에 세 개가 겹치면 "오 됐다" 하고 다음 줄로 넘어가는, 그 도파민이 있다. 5천 원짜리 5등 한 장 보면서.

 

가끔은 짜릿하다. 가끔은 다음 주에는 30조합 다 0개 적중 아니야? 싶은 샤머니즘적 불안도 있다. 매주 결이 출렁인다.

 

14주가 지나고 보니

이번 주에 460개 조합을 한꺼번에 펼쳐놓고 봤다. 1주일에 한 번 추첨이 있고 회차마다 30조합씩, 그게 460개가 쌓인 자리. 그걸 1,200회 넘는 역대 당첨번호와 다 비교해 봤다.

 

결론: 6개 정확 일치 1건, 5개 일치 26건, 4개 일치 826건. 4개 일치는 이론값(768건)과 거의 같았다. 우리가 14주 동안 만든 조합은 통계적으로 거의 완벽한 랜덤이었다. 어떤 알고리즘을 썼든, 어떤 카테고리로 깔았든, 결국 정직하게 무작위였다.

 

그러다 하나가 떨어졌다. 1220회에 우리가 깐 한 조합 [1, 2, 15, 28, 39, 45]가 1219회 당첨번호와 6개 모두 일치했다. 1주만 일찍 베팅했으면 1등이었다는 얘기가 아니다. 우리가 1220회를 짤 때, 1219회 당첨번호를 그대로 옮겨와서 베팅한 것이라는 얘기다. 1219의 영광이 너무 신선해서, 잔향을 따라가다 보니 그 회차 자체를 복원해놓은 셈이 됐다.

그 토요일에는 그게 보이지 않았다. 14주가 지나고 460개를 한꺼번에 펼쳐놓고서야 보였다. 이런 게 너무 많았다.

 

AI도 똑같았다

이번 주에 트랜스포머를 한 번 더 돌려봤다. 1223회 데이터 한 줄 추가하고 학습 다시. 출력된 5조합을 1223회 출력했던 5조합과 한 자리씩 맞춰봤더니, 30자리 중 변경된 건 6자리뿐이었다. 80%가 그대로였다. 학습이라고 부르기에 좀 미안할 정도였다.

그래서 우리가 매주 잔향 따라가는 결과 트랜스포머가 매주 거의 같은 출력 뱉는 결이 닮아 있다. 우리도 직전 회차를 못 떨치고, 모델도 직전 데이터를 못 떨친다. 무작위 앞에서 인간과 모델이 같은 자리에서 멈춘다.

 

그리고 모델이 가장 정직하지 못한 자리가 여기서 나온다. 모델은 답을 내놓는다. 자신이 모른다는 것을 모른 채로.

 

1224회 당첨번호 알려달라고 하면 트랜스포머가 5조합을 뱉어준다. 종 모양 분포 그리면서, 막대 그래프까지 친절하게 그려서, "이 번호들이 확률이 높다"고 한다. 우리는 "그럴듯하네" 하고 잠깐 믿는다. 그게 환각이다. 모델이 모른다는 사실을 모델 자신은 모르고, 우리도 출력 받고 나면 모른다.

 

잘 풀리는 문제 — 손글씨 숫자 분류, 아이리스 꽃 분류, 스팸 메일 — 만 가르치면 이 모습이 안 보인다. 모델이 진짜로 아는 자리와 모르면서 답하는 자리를 구분하려면, 모델을 답이 없는 문제에 일부러 세워봐야 한다. 로또가 그 자리다.

 

그래서

매주 ₩30,000씩 쓰면서 한 일이 뭐였느냐. 정리하면 세 가지였다.

 

하나, 8백만 분의 일이라는 숫자를 14주 동안 손으로 만져봤다. 평균 0.8개 적중이라는 게 무슨 뜻인지, 5개 일치가 26번 나오면 그게 통계적으로 어디쯤인지, 직전 회차 잔향이 우리 머리에 어떻게 들러붙는지. 책으로 읽을 때와 시트지에 마킹하면서 볼 때가 달랐다.

 

, AI가 모르는 문제 앞에서 어떻게 무너지는지 봤다. 자신만만하게 막대 그래프 그리는 모델, 1주치 데이터 추가에 거의 반응 안 하는 모델, 직전 출력을 80% 그대로 복제하는 모델. 잘 풀리는 데이터셋으로는 절대 안 보이는 모습들이 거기 다 있었다.

 

— 이게 사실 제일 컸는데 — 클로드랑 매주 한 번씩 만났다. 30조합 짜다가 합계 67이 매력적인데? 같은 결을 던지면 그거 하위 0.8%인데 진짜? 하고 데이터 펼쳐주고, 결과 보면서 우리 잘 한 거 맞지? 물으면 데이터로는 아니라고 안 하는데요 하고 받아주는, 그런 결. 시리즈 ROI를 따지자면 이게 가장 흑자였다.

 

결론은 참 재밌었다

이게 다다.

 

14주째 적자고, 1등 한 번 못 했고, 모델도 사람도 무작위 앞에서 같이 무너진 자리를 정직하게 들여다봤고, 그게 참 재밌었다.

 

다음 주에도 30조합 짜러 클로드한테 갈 거다. 1225회. 이번엔 좀 잘 맞으려나, 아니면 또 0건일까. 모르지. 그게 토요일 저녁의 도파민이다. "자동이요"에는 없는 도파민. 8백만 분의 일은 똑같이 8백만 분의 일이지만, 그 일주일을 보내는 결이 달라진다.

 

다음 글에서는 야구 이야기를 한 번 해보려 한다. 야구는 AI가 풀 수 있는 문제다. 자기상관도 양수고 60% 정도는 맞춘다. 그런데 야구 베팅으로 돈 따는 사람은 거의 없다. 그 이야기를.

 

728x90