Теоретический минимум по BIG DATA (Анналин Ын, Кеннет Су)

Эта короткая и простая книга даёт общее представление о том, что такое BIG DATA и какие методы используются в этой сфере. BIG DATA в самом общем представлении – это большие данные, хотя нет четкого определения, насколько «большими» должны быть данные, чтобы так называться. Поэтому мне ближе представление о BIG DATA не о данных как таковых, а обобщенного понимания методов их обработки с целью формирования обоснованных выводов.

В книге нет формул и тем более алгоритмов применения описываемых техник. Это – максимально общий обзор для тех, кто только-только начинает осваивать методы статистической обработки информации или хочет получить более общую картину. В книге 12 глав, каждая описывает по одному методу из BIG DATA. В книге описываются как довольно известные методики (регрессионный анализ, A/B-тестирование, дерево-решений), так и менее известные (кластеризация, метод ближайших соседей). Например, рекомендательные сервисы работают именно на основе метода кластеризации. Так, множество фильмов или книг по определенному алгоритму разбивается на кластеры с похожими элементами. В результате высока вероятность, что элементы из одного кластера окажутся хорошей рекомендацией.

Книгу можно использовать для первоначального знакомства с BIG DATA, но для практического применения, конечно, придется обращаться к специализированной литературе.