Определение алгоритмов предварительной обработки каждой переменной
Предобработка данных является важным этапом любого анализа, который актуален и для алгоритма АНС.
Масштабирование и преобразование данных, а также определение приоритетов здесь играют важную роль. Основными вариантами предобработки входных данных являются:
нормирование (масштабирование) данных;
определение приоритетов переменных;
модификация данных;
преобразование данных.
В процессе создания АНС на компьютере всегда используется внутреннее представление данных. Такое представление определяет топологию распределения данных и, таким образом, структуру плоскости выходных параметров. Как правило, программные пакеты, реализующие алгоритм АНС, дают исследователю возможность задать основные параметры внутреннего представления, определяющие процедуры предобработки данных.
После задания этих параметров определять больше ничего не требуется. Компьютерная программа сама производит расчет всех масштабных факторов, приоритетов и преобразований, общаясь с пользователем на языке исходных единиц измерения данных.
Основной целью нормирования данных является приведение всех данных к сопоставимому виду. Зачастую диапазон изменения данных варьируется от одного столбца к другому. Отсутствие предобработки может повлиять на кластеризацию и окончательный вид плоскости выходных параметров. Существует множество способов нормирования. Чаще других применяется нормирование всех данных по величине стандартного отклонения (variance).
Другой метод заключается в нормировании по диапазону изменения (range), т.е. значение нормированного параметра y определяется из ненормированного x по формуле:
Некоторые исследования показывают, что нормирование по диапазону изменения может быть в ряде случаев предпочтительнее (например, если дисперсия значительно меньше диапазона изменения). Если программа предлагает нормирование по дисперсии, а исследователь вручную выбирает нормирование по диапазону, то таким образом устанавливается более высокий приоритет соответствующей переменной. Относительное влияние этой переменной на процесс формирования плоскости выходных параметров, как правило, возрастает.