نوع مقاله : ترویجی

نویسندگان

1 دانشگاه صنعتی شریف، تهران، ایران

2 استاد تمام زبان و ادبیات فارسی دانشگاه تهران

چکیده

شناسایی سبک نویسنده و پردازش زبان طبیعی از اهمیت ویژ‌ه‌ای برخوردار است و پژوهش در این زمینه به دو صورت کیفی و کمی انجام می‌شود. ازآنجایی‌که شعر و ادبیات همواره یکی از افتخارات تاریخی زبان فارسی به‌شمار می‌آید، شناسایی سبک نویسندگان و شاعران به‌صورت گسترده، بدوناعمال نظرات انسانی و به شیوۀ کمی، امری ضروری است. در این پژوهش کاربرد روش‌های آماری برای شناسایی سبک نویسنده مورد بررسی قرار می‌گیرد؛ به‌همین‌دلیل، ویژگی‌های واژگانی، حرفی و نحوی از متن‌های منتخب استخراج می‌شود. هدف اصلی مقاله، استخراج ویژگی‌های صوری متن و دسته‌بندی اشعار مربوط به دو شاعر حوزۀ دفاع مقدس (قیصر امین‌پور و محمدرضا عبدالملکیان) است. به‌این‌منظور، از دو دسته‌بند K نزدیکترین همسایه و بیز ساده جهت انجام عمل دسته‌بندی و انتساب داده‌ها استفاده شد. بررسی هر کدام از دسته‌بندها با استفاده از معیارهای ارزیابی، انجام شد. نتایج ارزیابی‌ها روی سه نوع ویژگی نشان داد، ویژگی‌های واژگانی بدون حذف واژه‌های دستوری در دسته‌بند بیز ساده با 92 درصد معیار F از بالاترین دقت در میان انواع ویژگی‌ها برخوردار است. این نتیجه، نشان‌دهنده کارآیی قابل‌ملاحظۀ این نوع ویژگی در شناسایی سبک نویسنده است.

کلیدواژه‌ها

کتابنامه
منابع فارسی
آذین، زهرا (1392). شناسایی خودکار شاعران شعر نو با استفاده از ویژگی‌های زبانی، پایان‌نامۀ کارشناسی‌ارشد زبان‌شناسی، تهران: دانشگاه صنعتی شریف، دانشکدۀ زبان‌شناسی.
استاجی، اعظم (1387). تشخیص مؤلف متون ادبی و قانونی، بحثی در زبان‌شناسی قانونی، نشریۀ زبان و زبان‌شناسی، دورۀ چهارم، شمارۀ 2، 32-15.
بی‌جن‌خان، محمود (1381). طرح مدل‌سازی زبان فارسی مرحله دوم، آزمایشگاه گروه زبان‌شناسی دانشکدۀ ادبیات و علوم انسانی دانشگاه تهران.
سرایی، محمدحسین و شاهقلیان، آذر (1389). کاوش متون فارسی بر مبنای روش طبقه‌بندی، نشریۀ انجمن کامپیوتر ایران، جلد هشتم، شمارۀ 1، 13-8.
سمیعی گیلانی، احمد (1384). سبک، نشریۀ نامۀ فرهنگستان، شمارۀ 6، 102-86.
سمیعی گیلانی، احمد (1386). مبانی سبک‌شناسی شعر، نشریۀ ادب پژوهش، شمارۀ 2، 49-76.
شاهمیری، امیرشهاب و مطش بروجردی، محمدرضا (1386). تعیین شاعر به کمک روش‌های یادگیری ماشین، مجموعه مقالات سومین کنفرانس بین‌المللی فناوری و دانش، مشهد: دانشگاه فردوسی مشهد.
فرهمندپور، زینب؛ نیک‌مهر، هومن؛ منصوری‌زاده، محرم و طبیب‌زاده‌قمصری، امید (1391). یک سیستم نوین هوشمند تشخیص هویت نویسندۀ فارسی‌زبان براساس سبک نوشتاری، نشریۀ محاسبات نرم، دورۀ اول، شمارۀ 2، 35-26.
کامیار، حسین (1390). روش جدید وزن‌دهی معنایی به کلمات در کاربردهای پردازش متن، پایان‌نامۀ کارشناسی ارشد مهندسی کامپیوتر، مشهد: دانشگاه فردوسی مشهد، دانشکدۀ مهندسی.
مجیری، محمدمهدی و مینایی، بهروز (1387). تشخیص وزن عروضی اشعار فارسی: کاربرد جدیدی از متن کاوی، دومین کنفرانس داده‌کاوی ایران، تهران: دانشگاه صنعتی امیرکبیر.
یاحقی، محمدجعفر و ایزانلو، علی (1385). سبک سنجی، نقد و بررسی شیوۀ آماری کیوسام در انتساب یک اثر، نشریۀ زبان و ادبیات فارسی دانشگاه خوارزمی، دورۀ چهاردهم، شمارۀ 53-52، 190-151.
منابع انگلیسی
Abbasi, A., & Chen, H. (2005). Applying authorship analysis to extremist group web forum messages, IEEE Intelligent Systems, 20 (5), 67-75.
Baayen, H; Halteren, H. V; Neijt, A., & Tweedie, F. (2002). An experiment in authorship attribution. JADT 2002: Sixth International Conference on Textual Data Statistical Analysis, 29-37.
Jurafsky, D., & Martin, J. H. (2006). Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition, United State: Prentice Hall.
Mechti, S; Jaoua, M; Faiz, R; Belguith, L. H., & Bsir, B. (2015). On the Empirical Evaluation of Author Identification Hybrid Method Notebook for PAN at CLEF 2015. CLEF 2015 Evaluation Labs and Workshop, France: Toulouse.
Olsson, J. (2004). Forensic linguistics, an introduction to language, crim and law. London, New York: Continuum.
Patton, J. M., & Can, F. (2004). A stylometric analysis of Yasar Kemal's Ince Memed tetralogy, Computers and the Humanities, 38 (4), 457-467.
Salton, G. B. (1988). Term-weighting approaches in automatic text Retrieval, Information Processing & Management, 24 (5), 513-523.
Stamatatos, E. (2009). A Survey of Modern Authorship Attribution Methods, Journal of the American Society for information Science and Technology, 60 (3), 538-556.