Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере

Мулюкова Ксения Валериановна; Курейчик Виктор Михайлович

База данных: Каталог библиотеки СФУ (М 902)

Библиографическое описание: Мулюкова, Ксения Валериановна. Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере = The problem of analysis of big web data and the use of data mining technology for processing and searching patterns in big web data on a practical example / К. В. Мулюкова, В. М. Курейчик. - (Проблемы образования). - Текст : непосредственный // Открытое образование. - 2019. - № 2. - С. 42-49 : рис. - Библиогр.: с. 48-49 (17 назв.). - ISSN 1818-4243.

Аннотация: Исследование включало в себя обзор библиографических источников по проблемам анализа больших данных. Была применена технология Data Mining для анализа больших веб-данных, а также компьютерное моделирование практической задачи с помощью языка программирования C# и создания структуры базы данных на языке описания данных DDL для накопления веб-данных. В ходе работы описана специфика больших данных, были выделены основные характеристики больших данных, а также были проанализированные современные подходы к обработке больших данных. Дана краткая характеристика горизонтально-масштабируемой архитектуры и архитектуры BI-решения для обработки больших данных. Сформулированы проблемы обработки больших веб – данных: ограничение скорости доступа к данным, организация доступа по сетевым протоколам через сети общего назначения. Так же был реализован пример, показывающий подход к обработке больших веб-данных. На основе представления о больших данных, описанных сложностях обработки веб-данных и методах Data Mining, были предложены приёмы эффективного решения поставленной практической задачи обработки и поиска закономерностей в большом массиве данных. Были разработаны следующие классы на языке программирования C#: класс получения веб-данных через Интернет; класс преобразования данных; класс интеллектуальной обработки данных. Создан DDL-скрипт, создающий структуру для накопления веб-данных. Разработана единая UML-диаграмма классов. Построенная система данных и классов позволяет решить основную часть проблем обработки больших веб-данных и выполнить интеллектуальную обработку по технологии Data Mining с целью решения поставленной задачи выявления определенных записей в большом массиве. Сочетание объектно-ориентированного подхода, нейронных сетей и BI-анализа для фильтрации данных позволит максимально ускорить процесс обработки данных и получения результата исследования. По результатам проведённого исследования, можно утверждать, что современное состояние технологии анализа больших веб-данных позволяет эффективно обрабатывать объекты данных, выявлять закономерности, получать скрытые данные и получать полноценные статистические данные. Полученные результаты могут использоваться как в целях первичного изучения технологий обработки больших данных, так и в качестве основы разработки уже реального приложения для анализа веб-данных. Использование нейронных сетей и созданных универсальных классов-обработчиков делает созданную архитектуру гибкой и самообучаемой, а декларации классов и DDL-структура базы существенно упростят разработку программного кода.
The purpose of the work is to study the current problems and prospects of the solution for processing big data received or stored in the Internet (web data), as well as the possibility of practical realization of Data Mining technology for big web data on practical example. Materials and methods. The study included a review of bibliographic sources on big data analysis problems. Data Mining technology was used to analyze large web data, as well as computer modeling of a practical problem using the C # programming language and creating a DDL database structure for accumulating web data. Results. In the course of the work, the specifics of big data were described, the main characteristics of big data were highlighted, and modern approaches to processing big data were analyzed. A brief description of the horizontal-scalable architecture and the BI-solution architecture for big data processing is given. The problems of processing large web data are formulated: limiting the speed of access to data, providing access via network protocols through general-purpose networks. An example showing the approach to processing large web data was also implemented. Based on the idea of big data, the described complexities of web data processing and the methods of Data Mining, techniques were proposed for effectively solving the practical problem of processing and searching patterns in a large data array. The following classes have been developed in the C # programming language: Class of receiving web data via the Internet; Data conversion class; Intelligent data processing class; Created DDL script that creates a structure for the accumulation of web data. A single UML class diagram has been developed. The constructed system of data and classes allows to solve the main part of the problems of processing large web data and perform intelligent processing using Data Mining technology in order to solve the problem posed of identifying certain records in a large array. The combination of object-oriented approach, neural networks and BI-analysis to filter data will speed up the process of data processing and obtaining the result of the study Conclusion. According to the results of the study, it can be argued that the current state of technology for analyzing large web data allows you to efficiently process data objects, identify patterns, get hidden data and get full-fledged statistical data. The obtained results can be used both for the purpose of the initial study of big data processing technologies, and as a basis for developing an already real application for analyzing web data. The use of neural networks and the created universal classes-handlers makes the created architecture flexible and self-learning, and the class declarations and the base DDL structure will greatly simplify the development of program code.

Год издания: 2019

Авторы: Мулюкова Ксения Валериановна , Курейчик Виктор Михайлович

Источник: Открытое образование

Выпуск: № 2

Номера страниц: 42-49

Количество экземпляров:

Книгохранилище научной литературы (пр. Свободный, 79, 3 этаж): свободно 1 из 1 экземпляров

Показать дополнительные сведения

Будние дни	9:00–19:00
Суббота	9:00–17:00
Воскресенье	выходной день

Единый телефон	+7 (391) 291-25-74
Библиотека	+7 (391) 206-21-06
Издательство	+7 (391) 206-25-88
E-mail	bik [at] sfu-kras.ru
Адрес	пр. Свободный, 79/10