AI

[논문리뷰] Localized Semantic Feature Mixers for Efficient Pedestrian Detection in Autonomous Driving

hjr067 2024. 9. 4. 17:06

- 자율주행 시스템에서 보행자 탐지의 효율성과 정확성을 향상시키기 위한 연구

 

1. Abstract

 

  • 문제점: 현존하는 최첨단 보행자 감지 시스템은 느린 추론 시간과 작은 크기 또는 가려진 보행자에 대한 낮은 성능을 보임.
  • 제안: LSFM (Localized Semantic Feature Mixers)이라는 새로운 앵커 프리 보행자 감지 아키텍처 제안.
    • 기술적 개선:
      • Super Pixel Pyramid Pooling Module: 계산량이 많은 Feature Pyramid Networks(FPN)를 대체하여 효율성 향상.
      • MLPMixer 기반 Dense Focal Detection Network: 가벼운 감지 헤드를 사용하여 계산량과 추론 시간을 감소.
    • 성능 향상:
      • Mixup Augmentation: 특히 작은 크기 및 가려진 보행자에 대한 성능을 향상시킴.
  • 결과: Caltech, City Persons, Euro City Persons, TJU-Traffic-Pedestrian 등에서 최첨단 성능을 달성, 평균적으로 추론 시간을 55% 단축.
  • 특이사항: LSFM은 보행자 감지 역사상 처음으로 인간 기준 성능을 능가함.
  • 일반화: 교차 데이터셋 평가에서 LSFM이 새로운 데이터에 대해 잘 일반화됨을 증명.

 

 

 

2. Introduction

 

  • Key Challenges :
    • 가려진 보행자: 보행자들이 다른 물체나 보행자들에 의해 가려져 감지가 어려움. -> 추론 시간의 증가
    • 모션 블러: 이동 중인 차량에 장착된 카메라로 인한 모션 블러 문제가 있으며, 차량 속도가 빠를수록 이 문제는 심화됨.
    • 규모 차이: 카메라의 원근 왜곡으로 인해 보행자의 크기가 다양해짐. 작은 보행자의 감지가 특히 어려움.
  • Required Features :
    • 도메인 일반화: 다양한 날씨, 조명, 교통 상황에서도 잘 작동해야 하며, 훈련 데이터에 포함되지 않은 상황에서도 신뢰할 수 있어야 함.

 

Performance of pedestrian detectors in different settings. City Persons [48] (Green), Euro City Persons [1] (Pink), and Caltech Pedestrians [10] (Yellow). Y-axis values are % based in both (a, b). The proposed LSFM beats the human baseline on the Caltech dataset

 

  • 성능 vs. 계산 비용:
    • Vision Transformer(ViT) 기반 방법들은 특히 계산 비용이 많이 드는데, 이 중 자기 주의 메커니즘은 높은 복잡성을 가지고 있어 고해상도 이미지에 적합하지 X
  • Vision Transformer의 대안:
    • MLPMixer : 이미지 분류에서 Vision Transformer와 유사한 성능을 유지하면서도 계산 비용을 줄일 수 있다.
      • 고해상도 이미지에서 여전히 메모리와 계산 부담 ↑, downstream에 필요한 backbone에 비해 효율성 ↓
  • Solution:
    • MLP-based neck & Patched MLP Mixer-Based Detection Head를 결합한 새로운 보행자 탐지 네트워크
  • training methods :
    • 움직임에 의한 blur and masking 에 대해 훈련되도록 하기 위해, hard mixup 증강 사용
      • 네트워크가 이러한 조건을 견딜 수 있는 데이터를 제공 - 학습 강화
      • 작은 물체 탐지에서도 추가 데이터를 생성, 네트워크가 모든 크기에 걸쳐 잘 작동하는 핵심 특징을 학습하도록
  • contribution :
    • Super Pixel Pyramid Pooling (SP3): MLP 기반의 피라미드 네트워크를 제안
    • Dense Focal Detection Network (DFDN): 더 밀집된 연결을 가능하게 하는 경량 탐지 헤드를 제안
    • ConvMLP Pin: 제안된 네트워크의 추론 시간을 줄이기 위해  ConvMLP-based backbone pre-training

 

3. Related Work

 

  • RCNN 및 Vision Transformers: RCNN 모델 계열은 지역 제안과 객체 탐지에서 혁신을 이뤘고, Vision Transformers는 객체 탐지에서 Convolutional Networks의 대안으로 떠오르며 성능을 향상
  • MLPMixer 및 Anchor-Free 탐지기: MLP 기반 아키텍처는 비컨볼루션 접근을 제시했고, Anchor-Free 보행자 탐지기는 지역 제안 없이 객체를 직접 예측하는 방식으로 발전

 

4. Localized Semantic Feature Mixers(LSFM)

더보기

💡 Backbone

ResNet, DenseNet, VGGNet 등에서 backbone은 특성 추출(feature extraction)에 사용되는 부분이다. 한마디로 특성 맵(feature map)을 만드는 부분이다.

Neck

Backbone과 Head를 연결해 주는 부분이다. Neck에서는 backbone의 다른 단계 서로 다른 feature maps를 추출하게 되며, FPN, PANet, Bi-FPN 등이 사용될 수 있다.

Head

바운딩 박스의 분류(classification)나 회귀(regression) 같은 검출이 이루어지는 실직적인 부분이다.

세 모듈을 하나로 나타낸 것

 

  • LSFM은 MLPMixer를 기반으로 하여 효율적이고 가벼운 모델을 개발하는 것이 목표
  • Components : ConvMLP 기반 백본과 MLPMixer 기반의 검출 헤드를 사용. 이 모델은 입력된 다양한 크기의 이미지 패치를 처리할 수 있으며, 피라미드 네트워크 대신 SP3를 사용하여 네트워크의 가벼움을 유지
  • pedestrian representation : 보행자의 중심과 크기 정보를 사용

4-1. Super Pixel Pyramid Pooling

 

  • SP3의 필요성
    • 기존 FPN의 문제: 다양한 크기의 객체를 검출하기 위해 여러 단계에서 추출된 특징들을 통합. 그러나, 이 과정에서 필요한 Upscaling and Downscaling은 cost ↑ memory 차지 ↑
  • SP3의 작동 방식
    • Feature Map Processing : SP3는 백본의 각 단계에서 추출된 특징 맵을 다양한 크기의 패치로 나눔. 점점 더 작은 패치로 나누어지며, 1번째 단계 : 8x8 패치, 2번째 : 4x4 패치로 나눠짐.
    • Super Pixel Generation : 패치들은 각 공간 위치에 따라 그룹화 (하나의 공간 영역을 대표하는 Super Pixel )
    • 효율성: SP3는 enriching features 하는 과정을 한 번의 연산으로 효율적으로 수행, 복잡한 FPN보다 가볍고 빠른 처리

4-2. Dense Focal Detection Network (DFDN)

  • DFDN? object detection head는 최종 특징 임베딩을 객체로 변환하는 역할. 더 넓은 공간적 문맥을 가진 특징을 추가적으로 지역적 공간 연결을 도입하여 검출을 더욱 정교하게!
  • DFDN의 구성 및 특징
    • MLPMixer-based: DFDN은 MLPMixer layer로 구성된 새로운 ]detection head]. MLPMixer 레이어는 네트워크의 캐시 사용 효율을 높여 inference speed ↑
    • patch-based: 전체 이미지 대신 패치에서 작업을 수행(MLPMixer 레이어의 복잡도는 입력 해상도와 독립적으로 작동하여 고해상도로 확장 가능)
  • DFDN의 loss function
    • Center Prediction : predicts the center of pedestrians, F2DNet에서 사용된 Focal Detection Network의 손실 설정을 따른다. center prediction에는 균형된 Focal Loss가 사용되며, with a penalty reduction factor based on a Gaussian kernel around true positive samples.
    • Offset and Scale Regression : 
      • Offset : SmoothL1 loss
      • Scale : VanillaL1 loss (with log-scaled height and width values)

4-3. ConvMLP Backbone

ConvMLP-Pin 백본의 각 단계에서의 활성화 맵을 보여줌. 마지막 행은 모든 단계의 특성을 단일 크기의 스택형 특성 맵으로 통합하는 SuperPixel Pyramid Pooling (SP3) 레이어의 결과를 나타냄

  • ConvMLP ?
    • MLP 레이어 사이에 컨볼루션 레이어를 추가하여 공간적 연결을 가능하게 함.
    • 입력 해상도에 독립적이며, 비교적 낮은 계산 자원을 요구함.
    • MLP 레이어는 메모리 사용량이 선형적이며, 캐시 효율이 높아 추론 속도가 빠름.
  • ConvMLP-Pin 구조:
    • 1 step: tokenizer와 Residual Bottleneck Block을 포함하여 기본적인 특성 추출
    • following stages :
      • 여러 ConvMLP 블록으로 구성.
      • 각 단계의 끝에서 downsampling
      • 블록 수: 두 번째 단계 4개, 세 번째 단계 8개, 네 번째 단계 4개
    • MLP hidden dimension ratio : 2로 설정하여 경량화 유지

3.4. Hard Mixup Augmentation

 

  • 문제점:
    • 자율주행 데이터셋(예: [1,10,31,48])은 이동 중인 차량에 장착된 카메라로 촬영 -> 이미지에 motion blur, deep learning model training 방해
    • The low number of significant occlusion cases makes it difficult for the model to fully understand occlusions
  • 기존 방법의 한계:
    • Cutmix[44]와 Erase[49]와 같은 객체 인식 기반 증강 방법은 이미지에 원하지 않는 그라디언트 아티팩트를 추가할 수 있음
    • Mixup augmentation[45]은 이미지 인식 강화를 위해 널리 사용됨
  • HardMixup Augmentation 제안:
    • Mixup augmentation의 새로운 변형으로, 혼합 샘플과 하드 레이블을 사용하여 네트워크를 훈련시킴
    • 분류를 위한 mixup augmentation과는 달리, 소프트 레이블 대신 원본 레이블을 유지함.
    • HardMixup augmentation은 모델에 소프트 차단 샘플을 제공하여 모션 블러에 강한 모델을 만들도록 도움
  • 적용 방법:
    • Mixup 비율을 (0, 0.6) 범위로 설정하여 객체가 충분히 감지될 수 있도록 함
    • 비율을 넘어서면 레이블 유지 기준을 정의할 필요가 있음

3.5. Mean Teacher Knowledge Distillation

 

 

5. Experimental Setup

LSFM과 F2DNet의 질적 비교

 

  • Datasets
    • 자율주행에 초점을 맞추어 교통 장면이 포함된 데이터셋만 사용
    • EuroCity Persons: 유럽 31개 도시에서 촬영된 47,300개의 이미지로, 다양한 날씨와 조명 조건을 포함. 이번 연구에서는 낮 장면만 사용
    • CityPersons: 독일 27개 도시에서 촬영된 낮 장면들로, 이미지 크기는 EuroCity Persons와 유사하지만 데이터가 더 드물다
    • Caltech Pedestrian: 보행자 밀도와 이미지 해상도가 낮음
    • TJU-DHD-Traffic: 조명과 날씨 변화가 있는 교통 장면을 포함하여 탐지기의 강인성을 높여준다.
  • Evaluation Measure :
    • MR² 사용: FPPI 곡선에서 로그 평균 미스율 아래의 영역을 나타내며, 9개의 다른 FPPI 임계값에서 미스율의 평균을 기반으로 함
  • Evaluation Settings :
    • Caltech Pedestrian 데이터셋에서 제안된 설정을 기반으로 하여, 합리적, 작은 크기, 심한 차단, 전체로 탐지를 나눔
    • EuroCity Persons는 다른 가시성과 높이 임계값을 사용하지만, CityPersons와 Caltech Pedestrian은 동일한 임계값을 공유함.
  • Inference Time Calculation :
    • 기존 탐지기들과 일관성을 유지하기 위해 GTX 1080 Ti를 사용하여 추론을 수행하며, 원본 해상도의 단일 이미지를 대상으로 함

 

 

 

6. Results

 

  • 성능 평가 : 제안된 LSFM(Localized Semantic Feature Mixers) 모델은 여러 데이터셋에서 기존의 최첨단 방법들과 비교하여 성능을 평가
  • 데이터셋 : 
    • City Persons
    • Euro City Persons
    • Caltech
  • 비교 결과
    • Tab. 6: LSFM 모델과 인간 기준의 성능 비교 결과 - LSFM은 보행자 탐지에서 인간 기준을 넘는 성능달성
    • Tab. 7 및 Tab. 8: City Persons 및 Euro City Persons 데이터셋에서 LSFM의 성능 - City Persons에서 이전의 최첨단 방법들을 뛰어넘는 성능 기록, Euro City Persons에서는 약간의 성능 저하
  • Ablation Study : 개별 구성 요소가 LSFM의 성능과 추론 시간에 미치는 영향을 분석한 결과도 포함됨. 

 

7. Conclusion

 

  • Proposed architecture :
    • new anchorless pedestrian detection architecture 제안
    • MLP Mixer와 완전 연결 레이어를 사용하여 밀집 연결과 캐시 효율성 달성
    • 성능을 향상, 추론 시간을 단축
  • 성능:
    • 모든 언급된 데이터셋에서 최신 보행자 탐지기 성능을 초과
    • 역사상 처음으로 인간 기준을 초과
  • Future research directions :
    • 낮 시간의 보행자 탐지에 중점을 두었으므로, 야간 장면에서의 확장성을 연구할 예정
    • 교통 장면 이외의 시나리오에 대한 모델 적응 가능성을 탐구할 계획

-> 우리의 프로젝트에 도입해보자 !