Abstract
We propose a novel approach for solving the perceptual grouping problem in vision. Rather than focusing on local features and their consistencies in the image data, our approach aims at extracting the global impression of an image. We treat image segmentation as a graph partitioning problem and propose a novel global criterion, the normalized cut, for segmenting the graph. The normalized cut criterion measures both the total dissimilarity between the different groups as well as the total similarity within the groups. We show that an efficient computational technique based on a generalized eigenvalue problem can be used to optimize this criterion. We have applied this approach to segmenting static images, as well as motion sequences, and found the results to be very encouraging
چکیده
ما در این تحقیق، یک رویکرد جدید برای حل مسئله گروه بندی ادراکی در بینایی ماشین پیشنهاد داده ایم. به جای تمرکز بر ویژگیهای محلی و سازگاریهای آنها در داده های تصویر، هدف از رویکرد پیشنهادی ما استخراج اثر سراسری یک تصویر بوده است. ما بخش بندی تصویر را به عنوان یک مسئله پارتیشن بندی گراف درنظرگرفته و یک معیار سراسری جدید، برش نرمال، برای بخش بندی گراف پیشنهاد داده ایم. معیار برش نرمال، تفاوت کلی بین گروههای متفاوت و شباهت های کلی داخل گروهها را اندازه گیری می کند. نشان می دهیم که می توان از یک تکنیک محاسباتی کارآمد بر مبنای مسئله مقادیر ویژه تعمیم یافته برای بهینه سازی این معیار استفاده کرد. ما این رویکرد را در بخش بندی تصاویر ایستا و دنباله های متحرک بکار برده و به نتایج بسیار دلگرم کننده ای دست یافتیم.
1-مقدمه
حدود 75 سال قبل،[24] Wertheimer به اهمیت گروه بندی ادراکی و سازماندهی در بینایی اشاره کرده و فاکتورهای کلیدی نظیرتشابه ، مجاورت و پایستگی مناسب که منجر به گروه بندی بصری می شود را برشمرد. با این حال حتی تا امروز، بسیاری از مباحث محاسباتی گروه بندی ادارکی حل نشده باقی مانده است. در این مقاله، ما یک چهارچوب کلی برای این مسئله با تمرکز خاص بر بخش بندی تصویر، ارائه کرده ایم. بدلیل اینکه دامنه I یک تصویر را می توان به پارتیشن های بسیار متنوعی تقسیم بندی کرد، چگونه می توان به بهترین آنها دست یافت؟ در اینجا باید به دو جنبه توجه کرد: اول، تنها یک جواب صحیح وجود ندارد. دیدگاه بیزین مناسب است- چندین تفسیر در زمینه دانش پیشین محیط می تواند وجود داشته باشد…