تکنیک متن کاوی (Text Mining) به روش های استخراج اطلاعات اضافی از متن گفته می شود. شما می توانید با استفاده از روش هایی از قبیل یادگیری ماشین، متن هایی با حجم بالا را تجزیه و تحلیل کنید و اطلاعات مورد نیاز خود را از آن به دست آورید، که در واقع این کار شما یک متن کاوی است.
بیشتر بخوانید: داده کاوی چیست؟
برخی داده های متنی غیرساختارمند هستند و برای این که بتوانیم اطلاعاتی مانند تعداد واژه های تکراری، تعداد نشانه های دستوری به کار رفته یا تعداد فاصله های بین واژه ها را کسب کنیم، باید از روش متن کاوی که نوعی روش هوشمند برای پردازش متن است استفاده کنیم.
بیشتر بخوانید: متن کاوی در R
ابتدا لازم می دانیم به چند مورد اشاره کنیم:
1- تفاوت میان متن کاوی و داده کاوی
مهم ترین تفاوت بین متن کاوی و داده کاوی این است که متن کاوی بر روی داده های غیرساختارمند و نیمه ساختارمند مانند داده های حاصل از ایمیل تمرکز دارد اما داده کاوی با داده های ساختارمندی سر و کار دارد که از پایگاه های داده گرفته شده اند.
2- فرآیند متن کاوی
متن کاوی دارای چندین مرحله در فرآیند پردازش متن به شرح زیر است:
گام اول) شناسایی قالب یک متن:
در این مرحله واژه های موجود در یک متن را شناسایی می کند و آماده تجزیه و تحلیل می شود.
گام دوم) پردازش متن با استفاده از روش های آماری:
در این مرحله مواردی همچون تجزیه نحوی عبارات، برچسب زنی واژه ها و … با استفاده از روش های آماری صورت می گیرد.
گام سوم) شناسایی نام های موجود در متن:
حال با استفاده از روش های آماری نام هایی مانند مردم، مکان ها، سازمان ها، مخفف های خاص و اشخاص مهم و … شناسایی می شوند تا هیچ ابهامی در متن ایجاد نشود.
گام چهارم) شناسایی الگوها و ارتباط میان عبارات موجود در متن:
در این گام، همبستگی میان اطلاعات موجود در متن به خوبی محاسبه می شود و همچنین با شناسایی ویژگی هایی مانند آدرس، شماره تلفن، ایمیل و … در متن، الگوهای موجود در آن را کشف می کند.
گام پنجم) استخراج نگرش های ذهنی مختلف:
در این گام با استفاده از تجزیه و تحلیل مقصود نویسنده، می توانیم نگرش های ذهنی مانند عقیده، احساسات و هیجان موجود در متن را تشخیص دهیم.
تکنیک متن کاوی به طور کلی در 5 گام یاد شده خلاصه می شود. امروزه متن کاوی به عنوان یک مهارت ارزشمند در بسیاری از زمینه ها از جمله کسب و کار، مطالعات میدانی و تجزیه و تحلیل متن های عظیم و مهم به کار برده می شود و نرم افزارهای مختلف و قدرتمندی نیز برای پردازش متون در تکنیک متن کاوی به وجود آمده اند که بسیاری از آن ها نیز رایگان هستند.
بیشتر بخوانید: کلان داده چیست؟