A/B 테스트를 돌리기 시작한 첫 달이었습니다. 랜딩페이지 헤드라인 두 버전을 만들고, 메타 광고에서 트래픽을 반씩 나눴습니다. 일주일 뒤 숫자를 봤습니다. B가 더 높아 보였습니다. 그래서 B로 확정하고 다음 테스트로 넘어갔습니다.
그런데 그다음 달에도, 그다다음 달에도 전환율은 크게 달라지지 않았습니다. 나중에 알고 보니 그 일주일 동안 B 버전에 도달한 사람이 87명이었습니다. 그 숫자로 헤드라인의 우열을 가린 셈이었습니다.
이 글에서는 A/B 테스트를 열심히 돌리고 있는데 의미 있는 결론이 안 나오는 팀에서 반복되는 패턴 네 가지를 짚습니다.
첫 번째 문제 — 샘플이 작을 때 결론을 내린다
A/B 테스트에서 가장 자주 발생하는 실수입니다. 그리고 가장 발견하기 어렵습니다.
전환율 3% vs 4%라는 숫자를 보면 B가 확실히 낫다고 느껴집니다. 그런데 각 버전에 도달한 사람이 150명이라면 이 차이는 통계적으로 의미가 없을 가능성이 높습니다.
이것을 통계적 유의성(Statistical Significance)이라고 합니다. 쉽게 말하면 “이 차이가 우연이 아닐 확률이 충분한가”입니다. 일반적으로 A/B 테스트는 유의수준 95%를 기준으로 삼는데, 그 기준에 도달하려면 버전당 최소 수백 건의 전환 이벤트가 필요합니다.
혹시 이런 경험 있으신가요? 테스트를 2주 돌렸는데 숫자가 애매해서 다시 1주일을 더 기다리다가, 결국 “그냥 B 같은데?”로 결론 내리는 경우입니다. 저도 그랬습니다.
사전에 필요한 샘플 사이즈를 계산하는 것이 먼저입니다. Evan Miller의 A/B 테스트 계산기같은 무료 툴에 현재 전환율과 목표 개선율을 입력하면 필요한 샘플 수가 나옵니다. 이 숫자에 도달하기 전까지는 결론을 내리지 않는 것이 원칙입니다.
두 번째 문제 — 너무 많은 것을 동시에 바꾼다
“A/B 테스트”라는 이름에서 알 수 있듯이, 한 번에 하나만 바꿔야 합니다.
그런데 실무에서는 어느 순간 헤드라인도 바꾸고, CTA 버튼 색상도 바꾸고, 이미지도 다른 걸 쓰게 되는 경우가 생깁니다. 결과가 좋으면 “어느 게 효과가 있었던 건가요?”라는 질문이 생기고, 나쁘면 “어디가 문제였는지 모르겠다”가 됩니다.
한 번에 하나만 변경해야 결론이 나옵니다. 여러 요소를 동시에 바꾸는 순간, 테스트가 아니라 복권이 됩니다.
변경하고 싶은 요소가 많다면 순서를 정하는 것이 맞습니다. 영향이 클 것으로 예상되는 순서대로 — 헤드라인, CTA 문구, 이미지, 레이아웃 순이 일반적입니다.
세 번째 문제 — 전환 이벤트 정의가 흐릿하다
A/B 테스트에서 “무엇이 더 좋은 버전인가”를 판단하려면 기준이 있어야 합니다.
그런데 전환 이벤트가 제대로 설정되지 않은 채로 테스트를 시작하는 경우가 많습니다. “문의 폼 제출”이 전환인지, “가격 페이지 방문”이 전환인지, 아니면 “구매 완료”인지를 테스트 전에 명확히 해두지 않으면, 나중에 각자 다른 숫자를 보면서 결론이 갈립니다.
테스트 전에 정해야 할 세 가지입니다.
- 1차 지표: 이 테스트의 최종 판단 기준. 하나만 정한다
- 2차 지표: 1차 지표에 영향을 주는 중간 단계. 보조 참고용
- 가드레일 지표: 개선하려다가 오히려 나빠지면 안 되는 것 (예: 이탈률, 체류시간)
이 세 가지 없이 테스트를 시작하면 결과를 받아들고 나서 해석이 달라집니다.
네 번째 문제 — 영향이 너무 작은 요소를 테스트한다
A/B 테스트에서 흔히 겪는 좌절 중 하나입니다. 버튼 색상을 바꾸고, 아이콘을 넣고 빼고, 폰트 크기를 조정합니다. 그런데 전환율은 소수점 이하 변화조차 없습니다.
이건 테스트 방법이 틀린 게 아닙니다. 테스트 대상이 전환율에 미치는 영향이 작은 것입니다.
전환율에 실질적인 영향을 미치는 요소는 보통 세 가지 수준에서 결정됩니다.
- 메시지: “무엇을 말하는가” — 헤드라인, 소제목, 가치 제안
- 구조: “어떤 순서로 보여주는가” — 섹션 순서, 신뢰 요소 위치
- 마찰: “폼 작성이 얼마나 번거로운가” — 필드 수, 입력 방식
버튼 색상이나 이미지 종류는 이 세 가지가 갖춰진 다음 단계에서 테스트할 부분입니다. 순서가 뒤집히면 작은 변화만 반복하다가 시간이 소진됩니다.
A/B 테스트 전 점검 체크리스트
- [ ] 필요한 샘플 사이즈를 사전에 계산했는가
- [ ] 변경하는 요소가 하나인가
- [ ] 1차 판단 지표를 테스트 시작 전에 정했는가
- [ ] 전환 추적 이벤트가 정확히 발화되는지 확인했는가
- [ ] 테스트 종료 시점(날짜 또는 샘플 수)을 미리 정했는가
이 다섯 가지가 갖춰진 A/B 테스트는 결과가 애매하게 나오는 경우가 드뭅니다. 지금 진행 중인 테스트에서 빠진 항목이 있다면, 그게 결론이 안 나오는 이유일 수 있습니다.
A/B 테스트에서 데이터를 제대로 읽으려면 전환 추적 설정이 먼저 돼야 합니다. 구글 애즈를 직접 운영하는 팀이 처음 세팅하는 것들에서 전환 추적 기초를 먼저 확인해보세요. 랜딩페이지 자체의 전환 구조가 궁금하다면 랜딩페이지 디자인에 공 들였는데 전환이 안 나오는 팀의 패턴도 함께 읽어보시면 좋습니다.
자주 묻는 질문
A/B 테스트는 얼마나 오래 돌려야 하나요?
샘플 사이즈 계산기로 나온 숫자에 도달하는 시점이 기준입니다. 기간보다 샘플 수가 우선입니다. 트래픽이 적은 사이트라면 2~4주가 걸리는 경우도 많습니다. 그 전에 중단하면 결론이 없는 것이나 마찬가지입니다.
유의수준 95%가 반드시 필요한가요?
상황에 따라 90%로 낮추는 경우도 있습니다. 낮은 리스크의 UI 변경은 90%도 실무에서 쓰입니다. 다만 이 기준은 테스트 전에 정해야 합니다. 결과가 나온 다음에 기준을 바꾸는 것은 의미가 없습니다.
트래픽이 적어서 A/B 테스트가 어렵습니다. 어떻게 해야 하나요?
트래픽이 적으면 유의미한 결론에 도달하는 데 수개월이 걸릴 수 있습니다. 이 경우 테스트 대상을 전환율에 미치는 영향이 큰 요소(헤드라인, 가치 제안)로 집중하거나, 사용자 행동 녹화 툴(Hotjar, Microsoft Clarity)로 정성적 인사이트를 먼저 확보하는 것이 현실적입니다.
A/B 테스트와 다변수 테스트(MVT)는 어떻게 다른가요?
A/B 테스트는 하나의 변수만 바꿉니다. MVT는 여러 변수를 동시에 테스트해 조합 효과를 봅니다. MVT는 훨씬 많은 트래픽이 필요하고, 일반적인 중소 규모 사이트에서는 A/B 테스트가 현실적입니다.