Abstract
This paper presents an architecture for the extraction of visual primitives on chip: energy, orientation, disparity, and optical flow. This cost-optimized architecture processes in real time high-resolution images for real-life applications. In fact, we present a versatile architecture that may be customized for different performance requirements depending on the target application. In this case, dedicated hardware and its potential on-chip implementation on FPGA devices become an efficient solution. We have developed a multi-scale approach for the computation of the gradient-based primitives. Gradient-based methods are very popular in the literature because they provide a very competitive accuracy vs. efficiency trade-off. The hardware implementation of the system is performed using superscalar fine-grain pipelines to exploit the maximum degree of parallelism provided by the FPGA. The system reaches 350 and 270 VGA frames per second (fps) for the disparity and optical flow computations respectively in their mono-scale version and up to 32 fps for the multi-scale scheme extracting all the described features in parallel. In this work we also analyze the performance in accuracy and hardware resources of the proposed implementation
چکیده
این مقاله یک معماری برای استخراج عناصر اولیه تصویری در تراشه ارائه میدهد: انرژی، جهت یابی، اختلاف و جریان نوری. این معماری با هزینه بهینه تصاویر را با وضوح بالا در زمان واقعی برای برنامه های کاربردی در زندگی واقعی پردازش میکند. در واقع، ما یک معماری چند منظوره ارائه میکنیم که ممکن است برای نیازهای عملکردی مختلف بسته به برنامه هدف بهینه شوند. در این مورد، سخت افزار اختصاص داده شده و پتانسیل پیاده سازی بر روی تراشه در دستگاه های FPGA تبدیل به یک راه حل کارآمد میشود. ما یک رویکرد چند مقیاسی برای محاسبه عناصر اولیه مبتنی بر گرادیان را توسعه داده ایم. روش های مبتنی بر گرادیان در ادبیات بسیار معروف هستند ، زیرا آنها رقابت بسیار دقیقی در مقابل توازن موثر فراهم میکنند. پیاده سازی سخت افزار سیستم با استفاده از خطوط لوله ریز دانه سوپراسکولار ، بهره برداری حداکثر درجه همسانی ارائه شده توسط FPGA را انجام میدهد. این سیستم به 350 و 270 VGA فریم در ثانیه (fps) برای اختلاف و محاسبات جریان نوری به ترتیب در نسخه تک مقیاسی و تا 32 فریم در ثانیه برای طرح چند مقیاسی آنها می رسد و تمام ویژگی های شرح داده شده را به صورت موازی استخراج میکند. در این کار ما دقت عملکرد و منابع سخت افزاری اجرای پیشنهاد شده را هم تجزیه و تحلیل میکنیم.
1-مقدمه
درک حرکت و عمق برای یک سیستم مستقل که در حال حرکت به یک محیط پویا میباشد ضروری است . دید دو چشمی روشی است که ما برای درک عمیق استفاده می کنیم. که به عنوان اختلاف و یا تفاوت بین تصاویر عکس واقعی بر روی سنسورهای تصویری چپ و راست تعریف میشود . به طور مشابه، حرکت به عنوان یک تفاوت زمانی این تصاویر بین لحظات متوالی (یا فریم های تصویر در صورت استفاده از دوربین به عنوان سنسور) درک میشود. بنابراین، الگوریتم ها برای اختلاف و محاسبه جریان نور باید به ترتیب به عنوان جستجوی مدل ها برای تطبیق ویژگی فاصله ای یا زمانی دیده شوند . بسیاری از برنامه های کاربردی نیاز به ادغام این عناصر اولیه بصری دارند: ساختار حرکت [1]، ردیابی زمان واقعی قوی [2]، تشخیص مانع [3، 4]، ناوبری خودمختار [5]، چشم انداز فعال [6]، نظارت تصویری[7]، سیستم پیشرفته کمک گرا [8] و یا حتی، تحقیقات پزشکی [9]. علاوه بر این، محاسبه توصیفات محلی همانطور که برای معماری ارائه شده پیاده سازی شده، اولین مرحله به سمت هدف بلند مدت از درک صحنه نیز میباشد. توصیفات متداول محلی ردیابی و انرژی میباشد، آنها اطلاعات هندسی و تضاد محلی را به ترتیب کدگذاری میکنند. این ویژگی ها به طور گسترده ای در ادبیات برای برنامه های کاربردی مانند تجزیه و تحلیل الگو [10]، تشخیص الگو [11]، و تشخیص شی [12، 13] مورد استفاده قرار میگیرند . علاوه بر این، آنها پایه ای برای توصیفات پیچیده میباشند…