반응형

2026/02/16 2

2편. 추천을 위한 데이터 파이프라인 설계

이번 편에서 다루는 것AI 추천 시스템의 첫 번째 단계는 데이터 확보다. 아무리 좋은 알고리즘도 데이터가 없으면 무용지물이다.이번 편에서는 외부 학사 API에서 데이터를 가져와 PostgreSQL에 저장하는 파이프라인을 어떻게 설계하고 구현했는지 다룬다.데이터 소스 분석필요한 데이터추천 시스템에 필요한 데이터를 먼저 정리했다.데이터 용도 특징학생 정보추천 대상 식별, 학과 정보5,000건+, 학기마다 변동강좌 정보추천 후보군2,000건+, 매 학기 갱신학과 정보학과 기반 필터링50건, 거의 고정비교과 활동추천 후보군500건+, 수시 등록관심분야개인화 요소100건, 고정학생별 관심분야개인화 매칭10,000건+, 학생이 직접 선택외부 API 구조학사 시스템은 REST API를 제공했다. 각 데이터별로 별도 ..

🧪 테스트 DB 오염: 테스트 간 데이터가 남아서 실패하는 경우

🚨 이런 상황, 겪어보셨나요?"테스트를 하나씩 돌리면 통과하는데, 전체를 돌리면 랜덤하게 실패합니다.""분명히 어제까지 통과하던 테스트가 오늘 갑자기 실패합니다. 코드를 안 바꿨는데요.""CI에서만 테스트가 실패하고, 로컬에서는 항상 통과합니다.""테스트 실행 순서를 바꾸면 결과가 달라집니다." Django 테스트를 작성하다 보면, 테스트 하나만 돌리면 당연히 통과하는데 여러 테스트를 함께 돌리면 예측 불가능하게 실패하는 경험을 하게 됩니다. 원인은 대부분 테스트 DB 오염 — 이전 테스트가 만든 데이터가 다음 테스트에 영향을 주는 것입니다.🔥 실제 상황: 통과했다 실패했다 들쪽날쪽 테스트E커머스 프로젝트에서 테스트를 작성하고 있었습니다.class ProductTest(TestCase): def..

반응형