Сегодня на работе разгорелась небывалая дискуссия. Конечно же о модном нынче термине BigData. Большинство интересовал вопрос “А BigData это вообще сколько”, после чего люди называли самые большие числа, которые могли представить, и, вероятно представив такой объем данных, их глаза округлялись, появлялась улыбка и они уходили в забытье.
При этом мне показалось что понимание что же такое BigData и зачем оно нужно есть далеко не у всех.
Давайте разбираться.
Сейчас все кто только возможно говорят про BigData. Пожалуй уже даже больше чем про “облака”. Выступление любого вендора обязательно включает эти 2 слова 😉
При этом говоря о BigData часто говорят совершенно о разных технологиях : кто-то говорит про Hadoop и MapReduce, кто-то про NoSql, кто-то вообще о кластерных системах хранения.
Термин BigData пришел из интернет индустрии. Бизнес большинства интернет-компаний крутится вокруг аналитики. Google анализирует ваши поисковые запросы и предлагает вам рекламу тех товаров и услуг которые вероятно вам интересны. Похожим способом зарабатывает Yahoo, Yandex и Facebook. Все эти компании собирают как можно больше информации о вас чтобы предложить наиболее релевантную рекламу. Это не просто. Для этого требуется анализ большого массива данных о вас и данных о людях, с подобным вам поведением. Создание аналитических решений на данный момент фактически единственный способ заработка для подобных компаний. Это и есть “Bigdata technology”.
Теперь давайте посмотрим на рынок Enterprise решений. Есть ли там BigData? Безусловно!
Такие вещи как Business Intelligence, Decision Support и Data Mining and Analytics ( не уверен как правильно переводить на русский ) существуют в Enterprise’е достаточно давно.
Вот только спрос на действительно качественные решения из этой области очень не высок.
Примерно 6 лет назад стало понятно что стандартные базы данных не могут полноценно справиться с подобными задачами. Тогда на рынке начали появляться специфические решения для решения этой задачи: Teradata, Netezza, Greenplum, и прочие.
И все же большого распространения среди Enterprise компаний они не получили. Почему?
На мой взгляд в интернет-компаниях и в “традиционных” компаниях под аналитикой понимают несколько разные вещи. И если для интернет-компаний аналитика необходима для существования, то “традиционная” компания может продавать утюги и безо всякой аналитики. Да, аналитика может чем-то помочь. Но зарабатывать деньги без нее можно.
В основном аналитика в “традиционных” компаниях помогает принимать бизнесу те или иные решения. Т.Е. результаты аналитики предоставляются узкому кругу сотрудников самой компании.
Результаты же аналитики в интернет-компаниях предоставляются непосредственно потребителю. И если вдуматься разница в этих подходах колоссальная. Как на уровне источников данных, так и на уровне самих данных.
Так если для Enterprise аналитики источником данных служат в основном внутренние системы, то для “интернет-компаний” источник данных это действия пользователя. Причем чем больше данных сохраняется тем лучше: ведь тем детальнее может быть анализ!
Опять же так-как источник данных для Еnterprise компаний являются существующие базы данных, то и типы данных достаточно структурированы.
В случае же “интернет-компаний” тип данных сильно разниться и может меняться с такой же скоростью как и сами данные. В ответ на это появляется большое кол-во NoSQL баз.
И можно называть сколь угодно большие цифры, говоря о BigData, но важно понимать не то сколько у вас данных, а то что у вас за данные и что вы с этими данными планируете делать.
I like this weblog very much, Its a real nice position to read and get info.Blog monry