Вид документа:

Кваліфікаційна робота здобувача вищої освіти
ШІ
Генісаретський Р. Д. Аналіз ефективності використання семантичної мережі для визначення дублікатів речень в текстових документах : магістерська атестаційна робота, пояснювальна записка / Р. Д. Генісаретський ; кер. роботи доц. Чала Л.Е. ; ХНУРЕ, Кафедра Штучного інтелекту. – Харків, 2013. – 107 с. : CD


Статистика використання: Видач: 0

Анотація:
В данной работе рассматривается анализ эффективности семантических сетей для нахождения дубликатов в текстовых документах. В данной работе анализируются такие алгоритмы как N-грамм, алгоритм аппроксимированного сходства, алгоритмы схемы підписи, алгоритмы на основе инвертированного индекса.
Постановка задачи формулируется следующим образом: необходимо провести сравнительный анализ всех предложенных в работе алгоритмов, протестировать все алгоритмы на скорость и ложные срабатывания, а также выявить слабые и сильные стороны алгоритма, предложить наиболее оптимальный алгоритм для определения различного рода плагиата.
Таким образом, для решения поставленной задачи необходимо:
- проанализировать существующие подходы для выявления дубликатов;
- проанализировать методы нахождения плагиатов;
- выделить наиболее оптимальные методы для анализа текста на наличие плагиата.

ПЛАГИАТ, ДУБЛИКАТ, СТИЛОМЕТРИЯ, СТИЛОМЕТРИЧЕСКИЙ АНАЛИЗ, СЕМАНТИЧЕСКОЕ ВЫЯВЛЕНИЕ, СИНТАКСИЧЕСКОЕ ВЫЯВЛЕНИЕ, СЕМАНТИЧЕСКИЕ СЕТИ, ТОКЕНИЗАЦИЯ, СИНСЕТ, ИНВЕРТИРОВАННЫЙ ИНДЕКС, N ГРАММ


У даній роботі розглядається аналіз ефективності семантичних мереж для знаходження дублікатів в текстових документах. У даній роботі аналізуються такі алгоритми як N-грам, алгоритм апроксимованого подібності, алгоритми схеми підпису, алгоритми на основі інвертованого індексу.
Постановка завдання формулюється так: необхідно провести порівняльний аналіз усіх запропонованих у роботі алгоритмів, протестувати всі алгоритми на швидкість і помилкові спрацьовування, а також виявити слабкі і сильні сторони алгоритму, запропонувати найбільш оптимальний алгоритм для визначення різного роду плагіату.
Таким чином, для вирішення поставленого завдання необхідно:
- проаналізувати існуючі підходи для виявлення дублікатів;
- проаналізувати методи знаходження плагіатом;
- виділити найбільш оптимальні методи для аналізу тексту на наявність плагіату.

ПЛАГІАТ, ДУБЛІКАТ, СТІЛОМЕТРІЯ, СТІЛОМЕТРИЧНИЙ АНАЛІЗ, СЕМАНТИЧНЕ ВИЯВЛЕННЯ, СИНТАКСИЧНЕ ВИЯВЛЕННЯ, СЕМАНТИЧНА МЕРЕЖА, ТОКЕНІЗАЦІЯ, СІНСЕТ, ІНВЕРТОВАНИЙ ІНДЕКС, N-ГРАМ