Abstract
Data is the primary concern in data mining. Data Stream Mining is gaining a lot of practical significance with the huge online data generated from Sensors, Internet Relay Chats, Twitter, Facebook, Online Bank or ATM Transactions. The primary constraint in finding the frequent patterns in data streams is to perform only one time scan of the data with limited memory and requires less processing time. The concept of dynamically changing data is becoming a key challenge, what we call as data streams. In our present work, the algorithm is based on finding frequent patterns in the data streams using a tree based approach and to continuously cluster the text data streams being generated using a new ternary similarity measure defined
چکیده
دیتا یا دادهها را میتوان یکی از عناصر اصلی در تکنیک دادهکاوی در نظر گرفت. با توجه به حجم دادهای وسیع دادههای آنلاین که از بهوسیلهی حسگرها، چتهای اینترنتی، توییتر، فیسبوک، بانک آنلاین و یا تراکنشهای ATM ایجاد میشود، محدودیت اصلی دریافتن الگوهای مکرر در جریانهای دادهای این بوده که فقط یکبار باید اسکن دادهها را با حافظهی محدود و زمان پردازشی کم انجام دهیم. مفهوم تغییر پویای دادهها به یک چالش کلیدی تبدیلشده است که ما آن را جریانهای دادهای نامگذاری میکنیم. در این مقاله قصد داریم الگوریتمی را بر مبنای یافتن الگوهای مکرر در جریانهای دادهای و با استفاده از یک روش درختی ارائه دهیم و جریانهای دادهای متنی که بهوسیلهی مقیاس تشابه سهتایی ایجادشدهاند را مورد خوشهبندی قرار دهیم.
1-مقدمه
دادهکاوی را میتوان یک روش کشف دانش دانست که برای یافتن اطلاعات و الگوهای مخفی در دادههای موجود کاربرد دارد. تفاوت بین دادههای موجود در پایگاه داده و یک انبار دادهای این بوده که در یک پایگاه داده، دادهها بهصورت ساختاربندی قرارگرفتهاند درحالیکه در انبار دادهای، دادهها ممکن است/نیست ساختاربندی شده نباشند. ساختار دادهها ممکن است برای سازگاری آنها در جهت پردازش تعریف شود...