Что такое big data простыми словами? применение и перспективы больших данных
Содержание:
- Какие навыки важны для Big Data аналитиков
- Лучшие бесплатные курсы по анализу данных
- Amundsen в Kubernetes: Data Discovery
- Эволюция профессии: от 1960-х годов до наших дней
- Data Mining — как собирается и обрабатывается Биг Дата
- Applications of Big Data
- Какие используются инструменты и технологии big data
- Рынок труда и будущее аналитики данных
- Краткое описание
- Сколько зарабатывает дата аналитик
- Рынок технологий больших данных в России и мире
- Big Data в персональной рекламе и ретаргетинге
- С чего начать?
- Зарплата аналитика big data
- Анализ ассортимента и выявление проблемных поставщиков
- What is Big Data?
- Big data в бизнесе
- Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
- Кому подходит?
- Сколько зарабатывает аналитик данных?
- Government
- Что такое большие данные
- Какие компании занимаются большими данными
Какие навыки важны для Big Data аналитиков
Специалист такого уровня занимается изучением огромных информационных потоков. Они могут быть частично структурированными и неструктурированными. К примеру, в банковской сфере это перечень транзакций, в сегменте операторов мобильной связи — трафик и звонки, в розничной торговле — потоки клиентов и покупки. Аналитик должен выявлять связь между разными факторами сырых данных и разрабатывать новые подходы и варианты решений в разных областях — от сельского хозяйства до медицины.
Специальные умения
Для решения таких задач аналитик данных должен обладать рядом навыков:
- уметь оперативно вникать в проблемы анализируемой сферы и отслеживать важные аспекты, влияющие на ее деятельность (это могут быть такие отрасли, как нефтегазовая, медицинская, ритейл и т.п.);
- уметь получать данные из многих источников, конвертировать и систематизировать их в аналитические базы;
- владеть методиками статистического анализа информации;
- создавать математические модели;
- владеть языком структурированного запроса — SQL;
- знать английский на уровне, необходимом для свободного понимания технических документов;
- пользоваться фреймворков для обработки больших данных, например Spark, а для этого понадобится знание Scala и Java;
- знать основы Python и Bash;
- свободно работать с Hadoop;
- знать основы Data Governance;
- владеть основными видами цифровой трансформации;
- применять технологии больших данных в различных сферах (USE-CASES).
Аналитику больших данных пригодятся и дополнительные знания, и практика в сфере конкретной области, с которой он работает. К примеру, для анализа данных в банковской сфере знание бухучета только поможет, а при аналитике ритейла – пригодятся знания методов маркетинга. Особенности работы в Big Data добавляют к основным компетенциям аналитика и умение работать с Data Lakes (озера данных).
Лучшие бесплатные курсы по анализу данных
Теперь бесплатные курсы, гайды, видео, статьи и другие полезности.
#1. Специализация — Анализ данных
Бесплатный курс по анализу данных от Coursera. Проводят специалисты компании 2GIS и Новосибирский Государственный Университет (НГУ).
Состав курса:
- Введение в данные;
- Исследование статистических взаимосвязей;
- Сравнение и создание групп;
- Тренды и классификации;
После прохождения курса и защиты диплома ты получишь сертификат.
Длительность курса: 3 месяца
#2. Анализ данных в R
Курс по языку программирования R и анализу данных от Stepik.
Состав курса:
- Предобработка данных;
- Статистика в R (две части);
В конце курса ты получишь сертификат.
Длительность курса: не ограничена
#3. Введение в машинное обучение
Бесплатный курс по машинному обучению от Coursera. Проводят Школа анализа данных Яндекса и НИУ «Высшая школа экономики».
Программа курса:
- Знакомство с анализом данных и машинным обучением;
- Логические методы классификации;
- Метрические методы классификации;
- Линейные методы классификации;
- Метод опорных векторов и логистическая регрессия;
- Метрики качества классификации;
- Линейная регрессия;
- Понижение размерности и метод главных компонент;
- И т. д.
Длительность курса: 7 недель
#4. Intro to Data Science
Бесплатный англоязычный курс по Data Science от Udacity.
Чему научат:
- Работать с данными;
- Визуализировать информацию;
- Анализировать данные с помощью статистики и машинного обучения.
Длительность курса: 2 месяца
#5. Introduction to Artificial Intelligence (AI)
Курс по ИИ от edX и Microsoft.
Чему научат:
- Создавать простые модели машинного обучения с помощью Azure Machine Learning;
- Использовать Python для разных задач;
- Использовать Microsoft Bot Framework для создания ботов.
Длительность курса: 4 недели
Другие бесплатные курсы по анализу данных и Big Data
- Специализация «Deep Learning»
- Машинное обучение с использованием Python
- Профессия АНАЛИТИКА С 0 до PRO
- Продвинутое машинное обучение
- Карьера в Data Science. Ключевые этапы и как построить ее с нуля
- Специализация Machine Learning with TensorFlow on Google Cloud Platform
- #сasestudy Big Data: Как это использовать в бизнесе?
- Специализация «Введение в науку о данных»
- 5 нестандартных методов применения анализа данных
- Что такое наука о данных?
- Introduction to Data Science in Python
Amundsen в Kubernetes: Data Discovery
Далее поговорим о проблеме Data Discovery. Предположим, ваше хранилище выросло и в нем уже тысячи таблиц. Когда на проект приходит новый аналитик, ему нужно как-то познакомиться со всеми этими данными, понять, где и что лежит. Зачастую это решается личным общением: он просит помощи у коллег. Это долго, плюс специалисты отвлекаются от основной работы.
Для решения проблемы существует Open Source-платформа Amundsen. У нее есть UI-интерфейс, который позволяет предоставить пользователям удобный доступ к данным. Наполнять Amundsen метаданными можно вручную или автоматически, если интегрировать инструмент с с Airflow. При этом можно собирать статистику по таблицам, есть поиск, возможность задавать теги, указывать владельца данных, тип таблицы и так далее. Это помогает значительно повысить продуктивность и эффективность использования хранилища данных и решает задачу демократизации доступа.
Как запустить Amundsen в Kubernetes: есть Helm Chart для установки.
Полезные ссылки:
- Сайт Amundsen.
- Статья про Amundsen и ее продолжение.
Эволюция профессии: от 1960-х годов до наших дней
Кого-то это может удивить, но анализ данных — совсем не новое направление. Первые специалисты в этой области появились еще в середине 1960-х годов, когда начали зарождаться методы извлечения полезной информации из данных. Современные специалисты отличаются от этих первопроходцев большим набором доступных инструментов для работы — компьютеров, фреймворков (начиная с Excel и заканчивая профессиональным ПО вроде Sklearn, RapidMiner, TensorFlow и прочими), и неограниченным доступом в интернет. А еще — более сложными и интересными задачами, которые появились благодаря развитию технологий.
Если раньше данные анализировали в основном для того, чтобы мониторить процессы, то теперь есть возможность строить предиктивные модели, предсказывать последствия тех или иных шагов или изменений рыночной ситуации и своевременно реагировать на нее.
Футурология
Предикативная аналитика: как предсказать эпидемию и успех в бизнесе
Data Mining — как собирается и обрабатывается Биг Дата
Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в “озеро данных”. Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.
Хранение и обработка происходит следующими инструментами:
- Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
- HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
- Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.
Applications of Big Data
- Customer analytics
- Compliance analytics
- Fraud analytics
- Operational analytics
-
Gaining new subscribers, retaining customers, and expanding within current subscriber bases are top priorities for telecommunication service providers. The solutions to these challenges lie in the ability to combine and analyze the masses of customer-generated data and machine-generated data that is being created every day.
-
Whether it’s a brick-and-mortar company an online retailer, the answer to staying in the game and being competitive is understanding the customer better. This requires the ability to analyze all disparate data sources that companies deal with every day, including the weblogs, customer transaction data, social media, store-branded credit card data, and loyalty program data.
Какие используются инструменты и технологии big data
Поскольку данные хранятся на кластере, для работы с ними нужна особая инфраструктура. Самая популярная экосистема — это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другое. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений.
Например, мы ищем самый популярный твит среди данных разбитых на тысяче серверов. На одном сервере мы бы просто сделали таблицу и все. Здесь мы можем притащить все данные к себе и пересчитать. Но это не правильно, потому что очень долго.
Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо того, чтобы тянуть данные к себе, они отправляют к этим данным участки программы. Работа идет параллельно, в тысячу потоков. Потом получается выборка из тысячи серверов на основе которой можно выбрать самый популярный твит.
Map Reduce более старая парадигма, Spark — новее. С его помощью достают данные из кластеров, и в нем же строят модели машинного обучения.
Рынок труда и будущее аналитики данных
Только за последние два года через направление Data Science Нетологии прошло более 3000 студентов, большинство из них работают на профильных позициях в российских и зарубежных компаниях.
Со временем эксперты ожидают повышение спроса на аналитиков Big Data и представителей смежных специальностей. Чтобы оставаться востребованными, необходимо учиться и работать.
По данным International Data Corp. (IDC), мировой доход от решений для больших данных и бизнес-аналитики (BDA) достигнет 260 миллиардов долларов в 2022 году при среднегодовом темпе роста (CAGR) 11,9 процента. В 2025 программные роботы будут выполнять большинство задач, таких как очистка и сбор данных, т.е. многие процессы станут более автоматизированными. К 2030 году Data Science уже не будет заниматься поиском и очисткой данных. Эту задачу возьмут на себя программные роботы.
В настоящее время технологии уже развиваются и достигают своих высот. Подумайте о будущем, когда искусственный интеллект будет в зените, машинное обучение — на пике, облако захватит рынок, а интернет вещей начнет проникать в большинство отраслей. Специалисту по данным потребуются лучшие навыки, будь то технические или социальные, чтобы быть востребованным к 2030 году.
По теме: Как проходит собеседование на должность аналитика данных в Facebook
Игорь Полянский, Head of Global product analytics в Gett:
«Мир продолжает ускоряться, а вместе с ним — и требования бизнеса к скорости принятия решений. Подход «задай вопрос, направь его аналитику, а он проанализирует» больше не удовлетворяет требования к оперативности получения инсайтов. Поэтому стандартные подходы к анализу все больше упаковываются в коробочные решения.
В 2020 году анализ, на который раньше уходили часы аналитика, менеджер может сделать в несколько кликов. Аналитики же делают более сложные исследования, и требования к их компетенциям повышаются. Системы аналитики все больше переходят на формат real-time анализа. У многих компаний это давно must have».
Краткое описание
Big Data Analyst работает с большими данными, его клиенты в основном представители бизнеса, но не только – технологии «биг дата» во многих странах на государственном уровне используются в здравоохранении, медицине, фармации. Обработка, анализ и интерпретация данных позволяют взглянуть на привычные вещи по-другому, выявить новые процессы, феномены и т. д. В идеале аналитики больших данных должны разбираться в той сфере, в которой ведут деятельность, но на практике это далеко не всегда так.
Однозначного определения больших данных пока еще нет, но чаще всего под Big Data подразумевают наборы неструктурированных и разнородных данных, существенно превосходящие традиционные реляционные (структурированные) базы данных по объему. Сведения совершенно разного формата в общий массив поступают из разнообразных источников (датчики, приложения, камеры видеонаблюдения, социальные сети и т. д.) и постоянно пополняются в режиме реального времени. Сбором и обработкой нужной для определенных целей информации занимается аналитик больший данных.
Сколько зарабатывает дата аналитик
Профессия биг дата аналитик сегодня востребована. Управленцы для развития бизнеса все чаще прибегают новым технологиям, а для их применения нужны соответствующие специалисты. Еще в 2017 году профессия аналитика (Data Scientist и Data Analyst) вошла в десятку лучших профессий по версии агентства Glassdoor.
По данным компании Mail.ru Group, месячный оклад такого специалиста в РФ варьируется в диапазоне от 73 000 (начинающего) до 200 000 рублей (профи). Аналитик в США в среднем зарабатывает от $100 000 за год. Это зависит от опыта и уровня квалификации.
По прогнозам кадровиков, спрос на аналитиков Big Data в ближайшем будущем только возрастет. Чтобы стать такого уровня аналитиком, придется много учиться и усердно работать над улучшением выше перечисленных навыков и приобретением новых.
Рынок технологий больших данных в России и мире
По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.
Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.
Результаты внедрения технологий больших данных:
- рост качества клиентского сервиса;
- оптимизация интеграции в цепи поставок;
- оптимизация планирования организации;
- ускорение взаимодействия с клиентами;
- повышение эффективности обработки запросов клиентов;
- снижение затрат на сервис;
- оптимизация обработки клиентских заявок.
Big Data в персональной рекламе и ретаргетинге
Практически каждый пользователь сети Интернет сталкивался с тем, что реклама определенного товара, которым он недавно интересовался, путешествует за ним по различным веб-сайтам. Такой маркетинговый прием возврата покупателя на сайт называется ретаргетинг и реализуется с помощью технологий потоковой и пакетной аналитики больших данных. Как это работает, мы недавно рассматривали здесь. Такая рекламная стратегия подходит каждому бизнесу и очень просто воплощается в жизнь с помощью cookies-файлов пользовательского браузера и готовых облачных сервисов поисковых площадок, аналогично контекстной рекламе, например, Google AdWords, Яндекс Директ, ВК и пр. .
С чего начать?
Если вы понимаете, что специалист по анализу данных — это профессия вашей мечты, стоит подробнее изучить путь, который придется проделать.
Для начала обучения вам достаточно изучить Excel: знать, что такое сводные таблицы и как работают функции. Полезно также подтянуть знания по статистике, SQL и Python. Это можно сделать с помощью бесплатных курсов или тренажеров.
Курс
Профессия «Аналитик данных»
Освойте перспективную профессию с нуля: научитесь собирать и организовывать данные, делать выводы на основе их анализа и помогать бизнесу работать эффективнее.
- 20% теории и 80% практики
- Постоянный контакт с преподавателями
- Подготовка к трудоустройству
Узнать больше
Промокод “BLOG” +5% скидки
Зарплата аналитика big data
Заработок big data scientist, по данным портала Habr.com, находится в пределах от 73 до 200 тыс. рублей и зависит от множества факторов.
Сколько получает junior аналитик big data
Начинающие специалисты без опыта работы начинают путь с должности стажера или младшего специалиста. Обязательно знание английского языка, статистических методов и основ программирования. Опыт работы приветствуется, но не является обязательным. Предпочтение отдается кандидатам, которые нестандартно мыслят, быстро обучаются и желают развиваться в области big data. Зарабатывать на этой должности можно от 43 тыс. рублей.
Сколько зарабатывает middle аналитик big data
Зарплата аналитика с опытом 1–3 года находится в пределах 140–170 тыс. рублей. При этом компании предоставляют своим сотрудникам возможности для обучения и роста. Высшая планка заработка на такой позиции в Москве — 280 тыс. рублей в месяц до вычета налогов.
Сколько зарабатывает senior аналитик big data
У такого специалиста должен быть опыт работы более 3 лет и наличие реализованных и внедренных решений. Потребуется знание алгоритмов и библиотек машинного обучения, навыки программирования, владение Python, SQL в совершенстве. Аналитик с такими знаниями и опытом может рассчитывать на зарплату до 250 тыс. рублей после вычета налогов.
У кого из дата-сайентистов самые высокие заработки
В 2019 году в США профессия big data scientist стала лидером рейтинга лучших профессий с оплатой 108 тыс. долларов (7 млн рублей) в год. По этому направлению открыто 6,5 тыс. вакансий.
Константин Круглов (слева) — самый известный российский аналитик больших данных
В РФ звезда профессии — основатель и руководитель Data-Centric Alliance Константин Круглов. DCA — одна из крупнейших на российском рынке компаний, занимающихся разработками в области анализа big data.
Лучшие в своем деле (аналитик big data):
Обучение профессии аналитика больших данных — долгий и кропотливый путь. Data scientist постоянно совершенствуется, изучает новые технологии и методы работы. К таким специалистам предъявляются высокие требования, но и зарплаты в этой перспективной области в разы выше среднего уровня.
Анализ ассортимента и выявление проблемных поставщиков
Простой статистический анализ данных по продажам поможет выявить покупательские предпочтения и определить проблемы с поставщиками. Например, в одном из московских магазинов было несколько обращений по поводу плохо вычищенных семечек в замороженных фаршированных перцах. Обзвонив покупателей, которые недавно приобретали этот товар, сотрудники магазина получили следующие отзывы :
- 49% клиентов сказали, что перцы действительно были плохие — с семечками, вялые и даже грязные;
- 37 % сообщили о хорошем качестве продукции.
Такая картина показывает, что поставщик просто не справился с объемом: часть качественных товаров досталась 37% покупателей, а остальная продукция, вероятнее всего, была закуплена у субподрядчика без должной проверки. После этого сеть магазинов приняла решение отказаться от данного поставщика .
По выявлению неявных закономерностей в покупаемой продукции интересен кейс крупнейшего американского ритейлера WalMart, когда сотрудники одного из супермаркетов выявили, что в пятницу вечером пиво часто продается вместе с детскими подгузниками. Поставив дорогие марки пива на полки рядом с подгузниками, компания добилась геометрического роста продаж этого товара .
Аналогичным образом можно определить наиболее загруженные часы в плане поступления заявок и привлечь на это время дополнительного работника или идентифицировать географический район скопления потребителей продукции и открыть там дополнительную точку сбыта.
Поиск таких ассоциативных правил – типичный пример интеллектуального анализа данных (Data Mining), который предполагает обнаружение полезных для бизнеса инсайтов в накопленных массивах информации. Запуск подобных алгоритмов в режиме реального времени, когда они формируют онлайн-рекомендации для каждого пользователя сайта, в зависимости от его предпочтений, называется рекомендательной системой. Подобные советы, основанные на классификации интересов пользователя и предсказании его товарных предпочтений, строятся на базе моделей машинного обучения (Machine Learning). За сбор и преобразование данных, нужных для тренировки ML-модели, отвечают соответствующие технологии Big Data. Например, Apache HDFS для хранения исторических данных, Spark для потоковой и пакетной аналитики, Kafka для сбора и агрегации событий в режиме реального времени. Подробнее о том, как устроены рекомендательные системы, мы описывали на примере стримингового аудиосервиса Spotify и в кейсе формирования персональной ленты соцсети Twitter.
What is Big Data?
Big data refers to significant volumes of data that cannot be processed effectively with the traditional applications that are currently used. The processing of big data begins with raw data that isn’t aggregated and is most often impossible to store in the memory of a single computer.
A buzzword that is used to describe immense volumes of data, both unstructured and structured, big data can inundate a business on a day-to-day basis. Big data is used to analyze insights, which can lead to better decisions and strategic business moves.
Gartner provides the following definition of big data: “Big data is high-volume, and high-velocity or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.”
Big data в бизнесе
Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали.
Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.
Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.
Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.
Кому подходит?
Когда речь заходит о выборе профессии, следует учитывать не только заработную плату и востребованность специальности на рынке труда.
Новичку должны быть интересны такие науки, как математика, статистика, информационные технологии. Будут трудности, если сложно работать с большим объемом информации.
Среди личных качеств стоит выделить:
- Аналитический ум.
- Критическое мышление.
- Внимательность и концентрация.
- Ответственность.
- Широкий кругозор.
- Упорство и усидчивость.
- Умение решать задачи.
- Умение работать в команде и объяснять сложные вещи простыми словами.
- Бизнес-интуицию.
Поскольку область развивается так же быстро, как и данные, которые она анализирует, от профессионалов требуется постоянное повышение квалификации.
Сколько зарабатывает аналитик данных?
Мы проанализировали открытые вакансии на HH.ru и Хабр Карьера. Разброс зарплат оказался довольно большим. Что ожидаемо — он зависит от опыта и города, в котором работает аналитик. Стажеру в Перми предлагают 25 тыс. рублей, а аналитик данных в московском офисе международной компании зарабатывает 200 тыс. рублей.
Средние зарплаты получились такими:
Источник
Стажеры и junior-специалисты получают от 60 тыс. рублей. В 8% вакансий указана сумма ниже, но в основном они предлагают частичную занятость.
Руководители отделов и синьор-аналитики получают от 170 тыс. рублей. В некоторых вакансиях предлагают больше 250 тыс. рублей в месяц, но для них нужен опыт больше пяти лет в аналитике и большой пул компетенций.
В регионах ситуация иная. Максимальная зарплата, на которую можно рассчитывать, — 100 тыс. рублей. Но многие работают удаленно в своем городе, получая «столичную» зарплату. На сайте hh.ru удаленные вакансии для аналитиков данных составляют 15% от общего количества.
Government
Industry-specific Big Data Challenges
In governments, the most significant challenges are the integration and interoperability of Big Data across different government departments and affiliated organizations.
Applications of Big Data in Government
In public services, Big Data has an extensive range of applications, including energy exploration, financial market analysis, fraud detection, health-related research, and environmental protection.
Some more specific examples are as follows:
Big data is being used in the analysis of large amounts of social disability claims made to the Social Security Administration (SSA) that arrive in the form of unstructured data. The analytics are used to process medical information rapidly and efficiently for faster decision making and to detect suspicious or fraudulent claims.
The Food and Drug Administration (FDA) is using Big Data to detect and study patterns of food-related illnesses and diseases. This allows for a faster response, which has led to more rapid treatment and less death.
The Department of Homeland Security uses Big Data for several different use cases. Big data is analyzed from various government agencies and is used to protect the country.
Big Data Providers in this industry include Digital Reasoning, Socrata, and HP.
Что такое большие данные
Эта гигантские объемы информации, которые можно собрать и проанализировать только автоматизированным способом.
Предположим, каждый вечер после работы вы играете с собакой. Однажды вы заметили, что пес неприлично громко лает, бегая за мячом. При этом за резиновой игрушкой он гонится с такой же радостью, но молча. Несколько дней вы тестируете гипотезу: проверяете, действительно ли такую реакцию вызывает только мяч? Возможно, ведете дневник наблюдения, отмечая уровень шума по всем игрушкам. Убедившись в своей правоте, вы решаете играть с собакой в мяч только днем или в выходные. Отношения с соседями спасены.
Эти данные — «маленькие», их легко собрать и посчитать вручную, даже в уме. Большие данные — это терабайты разрозненной информации, которую надо собрать по кусочкам, обработать и перевести на «человеческий язык». Например, компания по производству игрушек для животных может анализировать привычки сотен тысяч собак, чтобы выпустить для них новый идеальный продукт.
Когда они сказали, что Excel-файл — это большие данные. Источник
Какие компании занимаются большими данными
Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.
Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.
Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.
Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.
Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.