Все определяют большие данные как набор из 3, 4 или 10 V. Действительно ли эти V дают нам определение концепции больших данных или они пытаются нам сказать что-то еще? Основная причина использования этой характеристики на основе V — подчеркнуть проблемы, связанные с большими данными. Такие задачи, как захват, очистка, хранение, интеграция, хранение, обработка и многое другое.
Эти V дают указания, как подготовиться к возможным испытаниям. Проблемы, которые могут возникнуть на вашем пути, когда вы начнете управлять большими данными, которые:
/p>
Эти V объясняют важные аспекты больших данных и стратегии больших данных, которые организация не может игнорировать. Давайте посмотрим на вклад всех V в различные атрибуты больших данных:
1. Объем:
Ежедневно в Facebook загружается 100 терабайт данных; Akamai анализирует 75 миллионов событий в день для таргетинга онлайн-рекламы; Walmart обрабатывает 1 миллион транзакций клиентов каждый час. 90% всех когда-либо созданных данных было создано за последние 2 года.
Приведенные выше цифры действительно показывают, что имеется в виду, когда мы говорим «большие объемы данных». Именно эта первая характеристика данных делает их большими данными. Этот огромный объем данных, в свою очередь, создает для нас проблемы с хранением этих данных.
См. также: 19 лучших бесплатных инструментов интеллектуального анализа данных
2. Скорость:
1 января 1999 года каждую минуту каждого дня мы загружаем 100 часов видео на YouTube, отправляем более 200 миллионов электронных писем и отправляем 300 000 твитов.
В основе цифр объема лежит еще более серьезная тенденция заключается в том, что 90% существующих данных были созданы всего за последние два года. Это отражает скорость или скорость, с которой данные создаются, хранятся, анализируются и визуализируются.
Задача, стоящая перед организациями, заключается в том, чтобы справиться с огромной скоростью, с которой данные создаются и используются в режиме реального времени.
3. Разнообразие
Раньше все создаваемые данные были структурированными, они аккуратно размещались в столбцах и строках, но те времена прошли. 90% данных, генерируемых сегодня, неструктурированы и представлены во всех формах и формах – от геопространственных данных до твитов, которые можно анализировать на предмет содержания и настроений, визуальные данные, такие как фотографии и видео.
Разнообразие описывает одну из самых больших проблем больших данных. Он может быть неструктурированным и включать в себя множество различных типов данных: от XML до видео и SMS. Осмысленная организация данных — непростая задача, особенно когда сами данные быстро меняются.
4. Вариативность
Изменчивость часто путают с разнообразием. Простой пример, позволяющий отличить его: подумайте о Starbucks – в холодном кофе так много вкусов. Это разнообразие. Предположим, вы покупаете Cafe Mocha каждый день, и его вкус и запах немного отличаются от того, что было в предыдущий день. Это изменчивость.
Изменчивость в контексте больших данных подразумевает несколько разных вещей. Одним из них является количество несоответствий в данных. Их необходимо обнаружить с помощью методов обнаружения аномалий и выбросов, чтобы можно было провести какой-либо значимый анализ. Большие данные также являются переменными из-за множества измерений данных, возникающих из-за множества несопоставимых типов данных и источников. Вариабельность также может означать непостоянную скорость загрузки больших данных в вашу базу данных.
См. также: Лучшие инструменты для очистки офлайн-данных
5. Достоверность
Для понимания больших данных решающее значение имеет их беспорядочный и шумный характер, а также объем работы, необходимый для создания точного набора данных еще до начала анализа. Бесполезно, если анализируемые данные являются неточными или неполными.
Такая ситуация возникает, когда потоки данных происходят из разных источников, представляющих различные форматы с различным соотношением сигнал/шум. К тому времени, когда он достигнет аналитики больших данных, он может быть изобилует накопленными ошибками.
Достоверность заключается в обеспечении точности данных, что требует процессов, предотвращающих накопление неверных данных в ваших системах. Самый простой пример — контакты, которые входят в вашу систему автоматизации маркетинга с вымышленными именами и неточной контактной информацией. Сколько раз вы видели Микки Мауса в своей базе данных? Это классическая задача «мусор на входе — мусор на выходе».
6. Визуализация
Это сложная часть больших данных, неудача в которой делает этот огромный объем данных бесполезным. Основная задача любой системы обработки больших данных — превратить их огромный масштаб во что-то легкое для понимания и практического действия. Для человеческого потребления одним из лучших методов является преобразование их в графические форматы.
Современные инструменты визуализации больших данных сталкиваются с техническими проблемами из-за ограничения технологии in-memory, а также плохая масштабируемость, функциональность и время отклика. Традиционные графики не могут удовлетворить потребность в построении миллиарда точек данных, поэтому вам нужны разные способы представления данных, такие как кластеризация данных или использование древовидных карт, солнечных лучей, параллельных координат, круговых сетевых диаграмм или конусных деревьев.
7 . Ценность
Ценность – это конечная цель. Потенциальная ценность больших данных огромна. Позаботившись об объеме, скорости, разнообразии, изменчивости, достоверности и визуализации (а это отнимает много времени и усилий), важно быть уверенным, что ваша организация получает пользу от данных.
Конечно, , данные сами по себе не представляют никакой ценности. Ценность заключается в анализе этих данных и в том, как данные превращаются в информацию и, в конечном итоге, в знания.
Приведенные выше 7 V говорят вам о трех важных аспектах больших данных, т.е. определении, характеристиках и вызовы. Но когда люди начали исследовать большие данные для изобретения методов решения вышеупомянутых проблем «7 V», они столкнулись с некоторыми другими V. Хотя они не играют такой важной роли в больших данных, но дополняют список характеристик и проблем.
8. Валидность
Как и достоверность, достоверность означает, насколько точны и правильны данные для использования по назначению. Достоверность больших данных — это вопрос их достоверности, что означает, что данные верны и точны для использования по назначению. Четко достоверные данные являются ключом к принятию правильных решений. Проверка данных — это проверка неповрежденной передачи данных.
9. Жизнеспособность
Просто задумайтесь над приведенными ниже утверждениями:
Наша первая задача — оценить жизнеспособность этих данных, поскольку, имея так много разновидностей данных и переменных, которые необходимо учитывать при построении эффективной прогнозной модели, мы хотим быстро и с меньшими затратами эффективно протестируйте и подтвердите актуальность конкретной переменной, прежде чем инвестировать в создание полнофункциональной модели. Другими словами, мы хотим проверить эту гипотезу, прежде чем предпринимать дальнейшие действия, и в процессе определения жизнеспособности переменной, мы можем расширить наше представление, чтобы определить, оказывают ли другие переменные – те, которые не были частью нашей первоначальной гипотезы – значимое влияние на наши желаемые или наблюдаемые результаты.
10. Волатильность
Какого возраста должны быть ваши данные, прежде чем они станут считаться неактуальными, историческими или бесполезными? Как долго необходимо хранить данные?
Когда мы говорим о нестабильности больших данных, мы легко можем вспомнить политику хранения структурированных данных, которую мы реализуем каждый день в нашем бизнесе. По истечении срока хранения мы можем легко уничтожить их.
Однако из-за скорости и объема больших данных необходимо тщательно учитывать их волатильность. Теперь вам необходимо установить правила актуальности и доступности данных, а также обеспечить быстрый поиск информации при необходимости.
11. Уязвимость
Вы помните взлом Эшли Мэдисон в 2015 году? Или вы помните, как в мае 2016 года CRN сообщил, что «хакер по имени Пис разместил в темной сети данные для продажи, которые предположительно включали информацию о 167 миллионах учетных записей LinkedIn и 360 миллионах электронных писем и паролей для пользователей MySPace».
Большой Данные приносят с собой новые проблемы безопасности. Учитывая эти характеристики, разработка программы безопасности для больших данных становится непростой задачей. В конце концов, утечка данных — это серьезное нарушение.
Итак, что все это говорит нам о природе больших данных? Что ж, он огромен и быстро расширяется, но он также шумен, беспорядочен, постоянно меняется, имеет сотни форматов и практически бесполезен без анализа и визуализации.
Объем, скорость и разнообразие — это не просто ключевые параметры больших данных, но они также являются причиной возникновения концепции больших данных и ключевых особенностей, разделяющих обычные данные и большие данные. Хотя они являются неотъемлемой частью самих больших данных, другие V. Изменчивость, достоверность, визуализация и ценность являются важными атрибутами, которые отражают гигантскую сложность, которую большие данные представляют для тех, кто будет их обрабатывать, анализировать и получать от них пользу.
Несомненно, большие данные — это ключевая тенденция, которую корпоративные ИТ-отделы должны учитывать с помощью надлежащей вычислительной инфраструктуры. Но без высокопроизводительных аналитиков и специалистов по обработке данных, которые смогут во всем этом разобраться, вы рискуете просто создать большие затраты, не создавая при этом ценности, которая превращается в бизнес-преимущество.
Читать: 0