вторник, 12 июня 2018 г.

«Все лгут. Поисковики, Big Data и Интернет знают о вас всё» Cет Cтивенс-Давидовиц


В оригинале, на английском языке, название книги звучит совсем по-другому – «Everybody  Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are». И его можно перевести примерно так – «Все лгут. Большие данные, Новые данные, и что Интернет может рассказать нам о том, кто мы есть на самом деле». Это название гораздо ближе не только к содержанию книги, но и к действительности. Правда состоит в том, что ни Big Data, ни запросы в поисковиках, ни профили в соцсетях, ни лайки в Facebook, ни даже отслеживание пользователей по геолокации смартфонов, не позволят узнать о каком-то конкретном пользователе абсолютно всё. Наоборот, и в книге об этом очень много говориться, эти данные чаще могут вводить в заблуждение исследователей (или иных бенефициаров Big Data). Люди очень часто лгут и при заполнении профилей, и в резюме и при выставлении лайков.

Однако, издательство Эксмо решило выбрать именно такое агрессивное и бескомпромиссное название, обильно отдающее желтизной и безысходностью, что, собственно, соответствует нынешним трендам эпохи постправды. В новостных лентах я обычно обхожу такие кричащие заголовки, в которых изначально заложено какое-нибудь противоречие. Но здесь я не удержался, и прочитал всю книгу. И, надо сказать, ни чуть не пожалел об этом.

Собственно книга о современных методах анализа Больших данных (Big Data). В ней, к сожалению, вы не найдёте ни программного кода, ни жёсткой структуры, ни определений, ни формул, характерных для учебников. В то же время, в ней есть много кейсов, в которых автор принимал непосредственное участие. Кроме того, в ней множество интервью со специалистами в этой области и большое количество полезной информации, благодаря которой книга получилась завершённой и вполне удовлетворяющей своим целям.

Первый и, наверное, самый главный вывод, который лично я для себя вывел после прочтения книги, заключается в том, что анализ Больших данных в настоящее время находится на самой начальной стадии. А в тех случаях, когда в результате этого анализа были получены полезные результаты, становилось очевидным, что их дальнейшая интерпретация и осмысление всё ещё требуют дополнительных усилий и времени. Например, применение А/В-тестирования во время предвыборной компании Барака Обамы. При выборе дизайна главной странички вебсайта Президента применялось именно это тестирование, которое заключается в том, что меняя фон, шрифт или фотографию Президента, подсчитываются количества кликов при каждом таком изменении. В результате был выбран дизайн страницы с фотографией Президента на фоне его семьи, что помогло привлечь на 40% больше зарегистрированных избирателей и, соответственно, большее финансирования. Однако, повсеместное привлечение А/В-тестирования без чёткого понимания причинно-следственных связей может привести, например, к нежелательной сегрегации на большинство и меньшинство.

Работа с Большими данными в основном относиться к выявлению благоприятных корреляций, а не к нахождению истинных причинно-следственных связей. Например, знаменитый первый закон виноградарства, с помощью которого определяют цену на будущее вино в зависимости от погодных условий во время вегетации; или соотношение левого желудочка сердца и селезёнки скаковой лошади для определения перспектив животного на скачках. Эти корреляции плод долгих поисков и они работают, но вот объяснений относительно того, почему они работают именно в таких соотношениях, так и не удалось найти.

Учитывая всё это, я бы не разделил оптимизма автора книги, который считает, что с появлением Больших данных такие науки, как экономика, социология и психология, приобрели такую же определённость и упорядоченность, как физика, биология и химия. Я бы даже сказал больше. Даже биология, и то, только с приходом современных технологий стала постепенно приближаться к физике, переходя из описательной науки в причинно-следственную. Да и современная психология всё больше опирается на нейробиологию и сопутствующие науки. Что же касается экономики и социологии, то этим наукам, на мой взгляд, предстоит ещё очень долгий путь для того, чтобы хотя бы приблизиться к уровню упорядоченности и стройности, по крайней мере, ньютоновской физики. Анализ Больших данных – это всего лишь ещё один метод исследования с большой выборкой и степенью достоверности, и вряд ли этот инструмент может существенно повлиять на состояние этих наук. К тому же, этим инструментом уж очень часто злоупотребляют, создавая, например, поведенческие зависимости, увеличивающие время пребывания пользователей в соцсетях.

В заключении хотел бы сказать, что книга безусловно рекомендуется к прочтению. В ней не только содержится масса полезной и интересной информации, но и описаны методы, с помощью которых с Большими данными работают такие гиганты как Google, Facebook и Amazon.

К тому же, книга невольно заставляет ещё раз задуматься о том, стоит ли так безрассудно размещать свои личные данные в Интернете. Уж очень не хочется быть кем-то посчитанным, взвешенным и уложенным на соответствующую полочку с вполне себе конкретным ценником и штрихкодом.

Комментариев нет:

Отправить комментарий