Обогатяване на данни
В повечето случаи се създават и поддържат хранилища за данни, за да се осигури ефективен анализ на данните в предприятието.
Очевидно данните, събрани за задачите за анализ, трябва да бъдат пълни и надеждни, тъй като е невъзможно да се направят правилни заключения за състоянието на бизнеса и начините за подобряването му въз основа на непълни или неточни данни.
Може да се появят непълни данни, например, ако част от данните за продажбите на клон на компанията са загубени по време на прехвърлянето им на CD. Анализаторът може да стигне до заключението, че продажбите в този бранш са катастрофално ниски, клонът работи неефективно и трябва да бъде затворен, въпреки че всъщност клонът е доста успешен и служителите му си вършат работата добре. Ненадеждните данни, които могат да бъдат пълни, съдържат изкривена информация, която не позволява качествен анализ. Следователно, в процеса на зареждане в компактдиска, както и при подготовка за анализ в аналитично приложение, данните се проверяват за пълнота, цялост, последователност, наличие на грешки, пропуски, аномални стойности и други фактори, които могат водят до неправилни резултати от анализа.
Данни и информация
За да се извлече информация от данни, може да се наложи тяхната обработка - коригиране на представянето на стойности (символи), подреждане и т.н. Примери за такава обработка са превод от непознат език на известен, промяна на кодирането на символи и т.н. На практика такава обработка с цел получаване на информация от произволни данни е много трудоемка, отнема много време и не гарантира резултати. Всъщност, ако първоначално при създаването на данни в тях не е била вложена информация, тогава ще бъде невъзможно да се извлече. Опитайте се да затворите очи и случайно въведете няколко реда на клавиатурата, а след това занесете набрания фрагмент при криптографа, кажете, че това е код, и поискайте да го дешифрирате. Най-вероятно усилията на специалист ще бъдат напразни. Ако случайно успее да идентифицира някаква редовност и да извлече някаква информация, тогава не е необходимо да се говори за нейната надеждност.
По този начин информацията не представлява никакви данни, а само тези, които са правилно представени и подредени, т.е. те имат структурни модели, които освен всичко друго трябва да бъдат разпознати и разбрани от потребителя. Така че, ако видим текст на език, чиито символи са непознати за нас, ние сме изправени пред ситуация, при която данните са подредени, но няма съответно представяне. Напротив, ако произволно пренаредите буквите в текст на известен език, ще получите правилното представяне, но липсата на ред. И в двата случая няма да можем да използваме тези данни, докато не бъдат трансформирани по подходящ начин.
Данните са обективна концепция. Те или наистина съществуват като промени във някакъв физически процес, или не. А информацията в повечето случаи е субективна. Ако един експерт с определено ниво на компетентност, знания и опит вижда полезна информация в определен набор от данни, тогава друг експерт с различно ниво на опит и знания ще намери напълно различна информация или няма да я намери изобщо.
Когато започнем да анализираме данни, за да намерим скрити модели и да извлечем знания, трябва да зададем редица въпроси.
- Тези данни имат ли изобщо смисъл? Те съдържат ли някаква информация?
- Ако да, колко надеждна и надеждна е тази информация?
- Достатъчна ли е тази информация за генериране на надеждни и надеждни знания, въз основа на които е възможно да се вземат отговорни управленски решения?
Отговорът на първия въпрос до голяма степен се определя от произхода на набора от данни. Ако данните са получени от надежден източник: от подразделение на предприятието, от счетоводната система, органите на държавната статистика и т.н. - най-вероятно те имат информация под една или друга форма. Вярно е, че понякога се изисква обработка на данни за извличането им - прекодиране, преобразуване на формат и т.н.
По този начин, ако доставчикът на данните е добре известен, тогава се определя значението на данните. Например, ако източникът на данни е счетоводен, тогава те най-вероятно съдържат информация от финансов или счетоводен характер. Ако източникът е някаква техническа служба на предприятието, то информацията, която тя предоставя в повечето случаи е от техническо естество.
Надеждността и валидността се проверяват на почти всички етапи на аналитичния процес: първо, на етапа на зареждане на данни в компактдиска (в процеса ETL), след това в самия компактдиск (автоматично управление) и накрая, в аналитичното приложение, когато подготовка на данни за анализ.
Третият въпрос е най-спорен. Достатъчно или недостатъчно информация за решаване на определен аналитичен проблем, всеки анализатор определя за себе си въз основа на много субективни критерии. Един анализатор, дори от минимум информация, ще изцеди максимума полезни знания с помощта на личен опит, аналитични умения, умело прилагане на аналитични методи и алгоритми. По-малко квалифициран човек може да не успее да реши проблем с каквото и да е количество данни. В допълнение, самите аналитични задачи се различават по нивото на сложност и изискванията към информационното съдържание на първоначалните данни.