متنکاوی، به دادهکاویای که بر روی متن انجام شود اشاره دارد. همچنین به عنوان آنالیز متن نیز شناخته میشود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، بطور معمول از فهم الگوها و گرایشها از طریق معانی و بوسیله یادگیری الگوهای آماری حاصل میشود. متن کاوی معمولاً درگیر در فرایند ساختاردهی به ورودیهای متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگیها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام میگیرد)، استخراج الگوهای درون دادههای ساختار یافته، و در نهایت ارزیابی و تفسیر خروجیها است. «پر کیفیت» در متن کاوی معمولاً به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دستهبندی متون، خوشه بندی متون، استخراج معنی و مفهوم، تولید ردهبندی دانهای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیتها است. (بطور مثال یادگیری ارتباط بین موجودیتها)
آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیکهای داده کاوی شامل آنالیز اتصال و ارتباط، بصری سازی، و آنالیز پیشگویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبانهای طبیعی و متدهای تحلیلی است.
یک کاربرد معمول، جهت اسکن مجموعهای از اسناد نوشته شده در یک زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاسبندی پیشگویانه یا پرکردن یک پایگاه داده یا ایندکس جستجو با اطلاعات استخراج شده است.
این فایل شامل ده مقاله درمورد متن کاوی است
حجم فایل 6.37MB
Zip,pdf