Вид документа:

Автореферат дисертації

УДК:

004.912:004.8
В67
Волкова В. В. Методи нечіткої кластеризації політематичних текстових документів : автореф. дис. ... канд. техн. наук : 05.13.23 "Системи та засоби штучного інтелекту" / Волкова Валентина Володимирівна ; Харків. нац. ун-т радіоелектроніки. – Харків : ХНУРЕ, 2010. – 19 с.


Статистика використання: Завантажень: 5 Видач: 0

Анотація:
Волкова В.В. Методи нечіткої кластеризації політематичних текстових документів. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціаль- ністю 05.13.23 - системи та засоби штучного інтелекту. - Харківський національний університет радіоелектроніки, Харків, 2010.
Дисертацію присвячено розробці методів кластеризації політематичних текстових документів у режимі послідовної обробки даних та наявності кластерів, що перетинаються. Розглянуто задачу кластеризації політематичних текстових документів, основні методи обробки документів та існуючі методи їх кластеризації, визначено основні недоліки та переваги розглянутих методів. Вперше запропоно- вано адаптивну нечітку нейронну мережу, що самоорганізується, та ймовірнісний і можливісний методи її навчання, які дозволяють виконувати нечітку кластери- зацію політематичних текстових документів, що в послідовному режимі надходять на вхід мережі, а також у процесі навчання знаходити нові кластери. Запропоновані методи навчання відрізняються своєю швидкодією та незначною обчислювальною складністю Вперше запропоновано модельнейро-нечіткої систе- ми кластеризації політематичних текстових документів з нечітким виведенням на основі комбінованого методу навчання. Набув подальшого розвитку метод навчання для нейронних мереж, що самоорганізуються, який дозволяє підвищити швидкість обробки інформації, поліпшити якість кластеризації за наявності клас- терів, що перетинаються, шляхом використання нечіткого виведення.
Вперше запропоновано метод автоматичної кластеризації політематичних текстових документів на основі генетичного алгоритму зі штучним відбором, який базується на комплекс-методі адаптаційної оптимізації та дозволяє знаходити екстремум довільних функцій великої кількості аргументів в умовах істотної невизначеності про характер цих функцій.
Ключові слова: політематичні текстові документи, нечітка кластеризація, штучні нейронні мережі, методи навчання, генетичні алгоритми, нечітке виведення

Волкова В.В. Методы нечеткой кластеризации политематических текстовых документов. - Рукопись.
Диссертация на соискание научной степени кандидата технических наук по специальности 05.13.23 - системы и средства искусственного интеллекта. -Харьковский национальный университет радиоэлектроники, Харьков, 2010.
Диссертационная работа посвящена разработке интеллектуальных методов нечеткой кластеризации политематических текстовых документов в режиме последовательной обработки данных.
В первом разделе рассматривается понятие "политематический текстовый документ" и основные проблемы, которые возникают при обработке такого типа документов. Рассмотрены методы обработки документов и существующие методы кластеризации текстовых документов, в том числе такой, которая выполняется в последовательном режиме, определены их основные недостатки и преимущества. Обоснована целесообразность разработки методов кластери- зации политематических текстовых документов на основе технологий вычисли- тельного интеллекта, которые позволяют выполнять кластеризацию в последо- вательном режиме, учитывать наличие пересекающихся кластеров, а также обнаруживать новые.
Во втором разделе впервые предложена адаптивная нечеткаясамоорганизую- щаяся нейронная сеть, нейроны которой отличаются от традиционных линейных ассоциаторов, образующих самоорганизующуюся карту Т. Кохонена. Синаптические веса определяют координаты центроидов перекрывающихся кластеров, по латеральным связям нейроны обмениваются координатами, необходимыми для вычисления принадлежностей, а выходом нейронной сети является вектор, определяющий уровень принадлежности входного образа к каждому из кластеров. Предложенная архитектура сети предназначена для решения задачи последовательной кластеризации политематических текстовых документов с учетом наличия пересекающихся кластеров.
Адаптивная нечеткая самоорганизующаяся нейронная сеть настраивается с помощью предложенных во втором разделе рекуррентных вероятностного и возможностного методов самообучения. Данные методы позволяют выполнять нечеткую кластеризацию политематических текстовых документов, находить в режиме реального времени прототипы формируемых кластеров, а также оценивать уровни принадлежности каждого образа документа, поступающего на вход нейронной сети, к конкретному кластеру. Также они позволяют обнару- живать в процессе обучения новые кластеры. Предложенные методы отличаются высоким быстродействием и незначительной вычислительной сложностью.
Впервые предложена модель нейро-нечеткой системы кластеризации политематических текстовых документов с нечетким выводом, в основе обучения которой лежит комбинированный метод, базирующийся на одновременном использовании вероятностного и возможностного рекуррентных методов самообучения. Данная система учитывает нечеткие кластеры при кластеризации последовательно поступающих политематических текстовых документов.
Получил дальнейшее развитие метод обучения самоорганизующихся нейронных сетей, который позволяет повысить скорость обработки информации, улучшить качество кластеризации при наличии пересекающихся кластеров путем использования нечеткого вывода.
В третьем разделе диссертационной работы предложен метод автоматической кластеризации политематических текстовых документов на основе генетического алгоритма с искусственным отбором. Данный метод базируется на комплекс-методе адаптационной оптимизации и позволяет находить экстремум произвольных функций большого числа аргументов в условиях существенной неопределенности о характере этих функций. Метод имеет улучшенные характеристики по сравнению с традиционными генетическими процедурами, прост в реализации и предназначен для использования в Genetic Mining больших массивов текстовых документов.
Проведено имитационное моделирование разработанной модели нейро-нечеткой системы на основе предложенной адаптивной нечеткой самоорганизующейся нейронной сети, генетического алгоритма с искусственным отбором. Показаны
их преимущества перед известными архитектурами и методами обучения как по точности, методу обработки, так и по быстродействию в задачах последователь- ной нечеткой кластеризации политематических текстовых документов. Решена практическая задача нечеткой кластеризации результатов поиска информа- ционно-поисковой системы научной библиотеки. Результаты показали, что раз- работанные методы существенно улучшают процесс обработки пользователем результатов работы информационно-поисковой системы, а также сокращают время обработки результатов запросов.
Ключевые слова: политематические текстовые документы, нечеткая кластеризация, искусственные нейронные сети, методы обучения, генетические алгоритмы, нечеткий вывод.

Volkova V.V. The fuzzy clustering methods for multi-topic text documents. -Manuscript.
The thesis for the candidate's degree in technical sciences, specialty 05.13.23 -systems and tools of artificial intelligence. - Kharkiv National University of Radio Electronics, Kharkiv, 2010.
The thesis is devoted to developing of multi-topic texts clustering methods in the real time using the adaptive fuzzy self-organizing neural network and genetic algorithm with the artificial selection. I consider the existent methods of text documents processing and their clusterization. Basic advantages and disadvantages have been revealed. For the first time, the adaptive fuzzy self-organizing neural network has been developed. The probabilistic and possibilistic methods of the self-organization for this neural network are first proposed. These methods allow to execute the fuzzy clusterization of multi-topic text documents entering on the entrance of the network in the real time. As a result, methods find new clusters. The proposed methods of learning differ from other ones by the fast operation and low requirements to computational recourses. The model of the neuro-fuzzy system of clusterization of multi-topic text documents is first developed with an fuzzy inference applying the combined method of learning. This is based on simultaneous usage of the probabilistic and possibilistic methods of self-organization, and takes into account fuzzy clusters during the clusterization process of the multi-topic text documents. The method of learning of self-organizing maps have got further development allowing to increase the speed of the information processing, improve quality of the clusterization in the presence of intersecting clusters using of fuzzy inference.
For the first time, the method of the automatic clusterization of the multi-topic text documents have been developed using the genetic algorithm with the artificial selection. The method is simple in realization and intended for the applications in Genetic Mining of large collections of text documents in the mode of the sequential processing.
Keywords: multi-topic text documents, fuzzy clusterization, artificial neural networks, learning procedures, genetic algorithms, fuzzy inference.