Model Pruning for Embedded AI in ADAS

[λΎ°ν‹€ μ‹¬ν”Œ 리뷰 2023] An optimized DNN model for real-time inferencing on an embedded device

byotle 2025. 2. 24. 21:31

이 논문은 DNN(심측 신경망)λͺ¨λΈμ˜ μ‹€μ‹œκ°„ 좔둠을 μœ„ν•΄ μž„λ² λ””λ“œ μž₯μΉ˜μ—μ„œ μ΅œμ ν™”ν•˜λŠ” μ—¬λŸ¬κ°€μ§€ 방법듀에 λŒ€ν•œκ²ƒμ΄λ‹€. 

< μ£Όμš” λ‚΄μš© >

λͺ¨λΈ κ²½λŸ‰ν™”(Model Compression):

DNN λͺ¨λΈμ„ μž„λ² λ””λ“œ μž₯μΉ˜μ— μ ν•©ν•˜λ„λ‘ κ²½λŸ‰ν™”ν•˜λŠ” 기술이 ν•„μš”ν•˜λ‹€. 이λ₯Ό μœ„ν•΄ 가쀑피 프루닝(pruning), μ–‘μžν™”(quantization), 지식 증λ₯˜(knowledge distillation)등을 μ‚¬μš©ν•΄μ„œ λͺ¨λΈ 크기λ₯Ό 쀄일 수 μžˆλ‹€.

μ΄λŸ¬ν•œ 기법듀은 λͺ¨λΈμ˜ μ„±λŠ₯을 μœ μ§€ν•˜λ©΄μ„œ 계산 μžμ›κ³Ό λ©”λͺ¨λ¦¬ μ‚¬μš©μ„ μ΅œμ ν™” ν•œλ‹€.

 

ν•˜λ“œμ›¨μ–΄ 가속(Hardware Acceleration):

μž„λ² λ””λ“œ μ‹œμŠ€ν…œμ—μ„œμ˜ DNNμΆ”λ‘  속도λ₯Ό 높이기 μœ„ν•΄, FPGAλ‚˜ ASICκ³Ό 같은 ν•˜λ“œμ›¨μ–΄ 가속기λ₯Ό ν™œμš©ν•  수 μžˆλ‹€. 

μ΄λŠ” λ³‘λ ¬μ²˜λ¦¬λ₯Ό ν™œμš©ν•˜μ—¬ μ‹€μ‹œκ°„ μΆ”λ‘  μ„±λŠ₯을 κ·ΉλŒ€ν™” ν•˜λŠ”λ° μœ λ¦¬ν•˜λ‹€.ㅏ

 

λͺ¨λΈ λ ˆμ΄μ–΄ 톡합(Layer Fusion)

μ—¬λŸ¬ λ ˆμ΄μ–΄λ₯Ό μˆ˜ν‰ λ˜λŠ” 수직으둜 μœ΅ν•©ν•˜μ—¬ μ—°μ‚°λŸ‰μ„ μ€„μ΄λŠ” 방법도 μžˆλ‹€. 

예λ₯Όλ“€μ–΄, CNN(ν•©μ„±κ³± 신경망)λͺ¨λΈμ—μ„œ μ—¬λŸ¬κ°œμ˜ ν•©μ„±κ³± 연산을 ν•˜λ‚˜μ˜ μ—°μ‚°μœΌλ‘œ ν†΅ν•©ν•˜μ—¬ λͺ¨λΈμ˜ νš¨μœ¨μ„±μ„ 높일 수 μžˆλ‹€.

 

μ΅œμ ν™”λœ μž…λ ₯처리(Optimized input Processing):

μž…λ ₯데이터λ₯Ό μ²˜λ¦¬ν•˜λŠ” 방식도 μ€‘μš”ν•œ 역할을 ν•œλ‹€.

단기 푸리에 λ³€ν™”(STFT)κ³Ό 같은 방법을 μ‚¬μš©ν•˜μ—¬ 효율적인 μž…λ ₯ λ³€ν™˜μ„ 톡해 μ—°μ‚° μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλ‹€.

 

μ‹€μ‹œκ°„ 좔둠을 μœ„ν•œ μ΅œμ ν™”λœ DNNꡬ쑰:

μžλ™μ°¨μ™€ κ°™μ€μ‹€μ‹œκ°„ μ„œλΉ„μŠ€μ— μ ν•©ν•œ DNNλͺ¨λΈμ„ μ΅œμ ν™”ν•˜λ €λ©΄, μ—°μ‚° νš¨μœ¨μ„±μ΄ μ€‘μš”ν•œ μš”μ†Œκ°€ λœλ‹€. 

예λ₯Όλ“€μ–΄, μˆ˜ν‰ 및 수직으둜 λ ˆμ΄μ–΄λ₯Ό μœ΅ν•©(fusion)ν•˜μ—¬ μ‹€ν–‰μ‹œκ°„μ„ λ‹¨μΆ•μ‹œν‚€κ³ , λͺ¨λΈμ˜ μ •ν™•λ„λŠ” μœ μ§€ν•˜λŠ” 방법이 νš¨κ³Όμ μ΄λ‹€.

 μ΄λŸ¬ν•œ μ΅œμ ν™” 방법듀은 μž„λ² λ””λ“œ μ‹œμŠ½λ©”μ—μ„œ μ‹€μ‹œκ°„ 좔둠을 κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” μ€‘μš”ν•œ κΈ°μˆ μ΄λ‹€. 

각기 λ‹€λ₯Έ ν•˜λ“œμ›¨μ–΄μ™€ μ†Œν”„νŠΈμ›¨μ–΄ μš”κ΅¬μ‚¬ν•­μ— 따라 μ΅œμ ν™” 기법을 μ‘°ν•©ν•΄μ„œ μ‚¬μš©ν•˜λ©° 더 λ‚˜μ€ μ„±λŠ₯을 얻을 수 μžˆλ‹€.