В книге нет формул и тем более алгоритмов применения описываемых техник. Это – максимально общий обзор для тех, кто только-только начинает осваивать методы статистической обработки информации или хочет получить более общую картину. В книге 12 глав, каждая описывает по одному методу из BIG DATA. В книге описываются как довольно известные методики (регрессионный анализ, A/B-тестирование, дерево-решений), так и менее известные (кластеризация, метод ближайших соседей). Например, рекомендательные сервисы работают именно на основе метода кластеризации. Так, множество фильмов или книг по определенному алгоритму разбивается на кластеры с похожими элементами. В результате высока вероятность, что элементы из одного кластера окажутся хорошей рекомендацией.
Книгу можно использовать для первоначального знакомства с BIG DATA, но для практического применения, конечно, придется обращаться к специализированной литературе.