Понятие и характеристики больших данных
В данной стать показано, что такое большие данные, откуда они берутся, их характеристики и какую пользу можно извлечь из громадного набора данных?
Большие данные(Big Data) это такие массивы данных, поступающих от различных источников измерений и имеющие такие объемы, что обрабатывать их стандартными средствами математической статистики либо затруднительно, либо не возможно. Большие данные это как структурированные, так и неструктурированные массивы данных большого объема и значительного многообразия.
Понятие большие данные(Big Data) появилось примерно в 2008 году, когда стало ясно, что объемы массивов данных, поступающих от различных источников измерений, оказываются настолько велики, что обрабатывать их стандартными средствами математической статистики стало либо затруднительно, либо не возможно.
Большие данные сегодня генерируются от множества источников информации во многих отраслях. Их объемы достигают десятков терабайт. Например, каждый день через сервера компаний всего мира проходит тысячи петабайт (1024 терабайт) информации. Своевременная обработка поступающих данных стала проблемой. Кроме больших объёмов данных, проблему усложняет их разнородность и высокая скорость обновления, так как большие данные быстро меняются и появляются в различных формах.
Кратко охарактеризуем значения показателей, которые свидетельствуют, что эти данные большие:
- Объём(Volume) данных должен составлять от 150 — 200 Гб в сутки. По данным компании IBS, в 2012 году объем хранящихся в мире цифровых данных вырос на 50%: с 1,8 до 2,7 Збайт (2,7 трлн Гбайт). В 2015-м в мире каждые десять минут генерировалось столько же данных, сколько за весь 2003 год.
- Ценность(Value) данных характеризуется тем, что можно извлечь из данного набора данных,какие можно сделать выводы и принять решения после их обработки.
- Достоверность(Veracity ) данных обусловлена достоверностью источников генерации и сбора данных.
- Скорость(Velocity) данных характеризуется изменчивостью объёма и содержимого Big Data.
- Разнообразие(Variety) данных определяется различными видами представления информации(текстовое, фото, видео и т. п,), различным объёмом и форматом представления, а также поступлением из множества разных источников.
Большие данные бывают структурированными, то есть уже размеченными по определённым параметрам. Однако основная масса больших данных (Big Data) является неструктурированными, что значительно усложняет их обработку.
Какая польза от больших данных?
Большие данные хранят в себе громадный объем информации, извлекая который можно решить многие нерешенные проблемы, связанные с обработкой и управлением данными. С помощью аналитики больших данных, открываются скрытые закономерности и получаются представления, которые позволяют найти и сформулировать идеи и обнаружить взаимосвязи для инноваций и повышения эффективности и конкурентоспособности производства.
Крупные компании с помощью больших данных прогнозируют потребительский спрос.
Банки с помощью Big Data не только анализируют действия клиентов и предлагают им свои продукты, но и повышают безопасность.
Телекоммуникационные компании очень широко используют Big Data: около 90% телекоммуникационных компаний уже собирают и анализируют большие данные, а остальные планируют начать в будущем.
Благодаря анализу больших данных ритейлер в курсе интересов покупателей, а также предлагает собранную информацию другим компаниям, которые тоже используют ее в маркетинге.
Но большие данные это не только польза, но и проблемы.
Проблемой для больших данных является и их хранение. Во–первых существующие базы данных не пригодны для этого. Во-вторых, их очень сложно обрабатывать и управлять традиционными технологиями, такими как СУБД,
Поэтому в отличие от традиционных технологий для больших данных создаются специализированные методы, инструменты и технологии для сбора, хранения, обработки и анализа больших объемов данных. Исторически первым возник Интеллектуальный анализ больших данных(Data Mining).
С помощью аналитики больших данных, открываются скрытые закономерности и получаются представления, которые позволяют найти и сформулировать идеи и обнаружить взаимосвязи для инноваций и повышения эффективности и конкурентоспособности производства.
Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях. Очевидно, что наиболее общим специалистом является специалист по большим данным DataScientist.
Заключение
Что такое большие данные и для чего они нужны государственным органам,, крупному бизнесу, медицине и образованию? Большие данные хранят в себе громадный объем информации, извлекая который можно решить многие нерешенные проблемы, связанные с обработкой и управлением данными.
Связанные материалы
- Онлайн школы и курсы IT профессий
- Как стать программистом?
- Обучение программированию на Python
- Как изучать алгоритмы решения задач?