Lit-Net

담배를 물었다고 피는 게 아니다

이 당연하고도 철학적인 명제를 증명하기 위해 컴퓨터 비전으로 담배 불씨 감지 연구를 시작했습니다.

담배가 있다고 흡연은 아니다.

금연구역 내 25,266명 중 5,623명이 흡연했다. 단속은 사람의 눈에 의존했다. 카메라는 있었지만 보고 있지 않았다. 기존 AI 연구들은 담배가 '있는지' 찾거나 흡연 '동작'을 분류하는 수준이었다. 담배를 쥐고 있는 것과 실제로 피우고 있는 것을 구별하는 연구는 없었다.

담배 끝을 보면 알 수 있다.

불이 붙었는지를 알면 — 있는 것과 피우는 것을 구별할 수 있다. 먼저 담배를 찾고(YOLOv5), 찾은 담배의 끝 부분을 크롭해 점화 여부를 분류(ResNet50)하는 두 모듈을 연결했다. 전체 프레임을 분석하는 대신 담배 끝이라는 가장 작은 단위에 집중했다. 막대사탕처럼 형태가 비슷한 물체를 오검출하는 문제를 줄이기 위한 판단이기도 했다.

연습에서 90%. 실전에서 44%.

Detection 모듈은 기존 어텐션 모듈 대비 1/7 파라미터로 동등한 성능을 냈다. Classification 정확도는 같은 데이터셋 내에서 90%였다. 하지만 새로운 환경의 이미지 앞에서 44%로 떨어졌다. Lit/Unlit 234장으로 학습한 모델이 다양한 조명과 각도, 거리를 커버하지 못했다. 모델 구조가 아니라 데이터의 다양성이 병목이었다.

모델의 천장은 구조가 아니라 데이터였다.

아무도 묻지 않은 질문을 정의한 것 자체가 이 연구의 핵심이었다. 담배 감지가 아니라 담배 불씨 감지(Lit Cigarette Detection)라는 문제를 세운 것. 하지만 그 질문이 아무리 정확해도, 모델이 보는 데이터가 세상을 대표하지 못하면 실전에서 무너진다. 질문은 연구의 시작이고, 데이터는 연구의 천장이다.