Перевод статьи Джейка Вандерпласа (Jake Vanderplas) The Big Data Brain Drain: Why Science is in Trouble
Об авторе: Джейк Вандерплас является научным сотрудником Национального научного фонда в университете Вашингтона, изучает и преподает астрономию, астрофизику и машинное обучение.
Несмотря на все разнообразие клише, приходящих на ум при упоминании «Больших данных», очевидно, что растущее количество данных меняет наши взгляды на окружающий мир. Это справедливо как для промышленности и управления государством, медиа и академических дисциплин, так и для всего остального. Наши растущие возможности по сбору, обработке и визуализации крупных объемов данных помогают нам расширять границы наших познаний.
Однако когда дело касается исследований, этот все ускоряющийся переход к ориентированной на данные науке имеет свою «темную сторону», которая приводит к следующему: умения, необходимые для того, чтобы быть успешным исследователем, все больше сливаются с умениями, необходимыми для успеха в индустрии. В то время как академические круги, с присущей им инерцией, постепенно приходят к принятию этого факта, остальной мир уже начал выделять и поощрять эти умения на более высоком уровне. Негативный результат этого процесса заключается в том, что наиболее многообещающие исследователи не могут найти места в академической среде, в то время как мир коммерческой промышленности принимает их с распростертыми объятиями и полными карманами.
В 1960 году физик Юджин Винер (Eugene Wigner) опубликовал в журнале Natural Sciences известное эссе под названием «Необъяснимая эффективность математики». В нем он рассказал об удивительной способности абстрактных математических концепций сохранять свою применимость в контекстах, далеких от тех, для которых они были выведены. В конце концов, кто бы мог подумать, что исследования неевклидовой геометрии Римана в 19 веке создадут базу для переосмысления гравитации Эйнштейном, или что кодификация ротационных групп абстрактных элементарных частиц может в дальнейшем помочь физикам предсказать существование бозона Хиггса?
Следуя идее этого эссе в 2009 году исследователи из Google Алон Халеви, Питер Норвиг и Фернандо Перейра (Alon Halevy, Peter Norvig, Fernando Pereira) написали статью под заголовком «Необъяснимая эффективность данных». В ней они описали удивительное наблюдение, что достаточное количество данных нередко делает неважным выбор математической модели — в частности, для выполняемой ими задачи – автоматизированного перевода языка: «простые модели, подкрепленные большим количеством данных, превосходят более сложные модели, построенные на меньшем количестве данных».
Если мы посмотрим шире и предположим, что это открытие может быть хотя бы частично экстраполировано за пределы обработки естественного языка, то мы можем вполне справедливо предполагать, что в скором времени знания предметной области все чаще могут быть превзойдены «чистым» умением интеллектуально анализировать данные. Я могу подкрепить свое утверждение тем фактом, что это предсказание уже стало сбываться: во многих областях академических знаний, способность к эффективной обработке данных постепенно вытесняет другие, более классические модели исследования.
Я ни в коем случае не спорю с тем, что понимание предметной области совершенно необходимо; в конечном счете, все данные, полученные при работе Большого андронного коллайдера со скоростью 10GB/секунду, без глубокого понимания теории взаимодействия частиц будут полностью бесполезны, так же как и снимки с телескопа Large Synoptic Survey Telescope (LSST), в объеме 15TB/за ночь, расскажут нам весьма немного без понимания теории физических процессов, которые лежат в основе перемещений наблюдаемых небесных тел. Однако ситуация с БАК и LSST отражает общую тенденцию научного мира, где научные результаты в целом зависят от использования сложных методов анализа крупных массивов данных. Даже там, где данные нельзя классифицировать как «большие», прогресс в науке двигается теми, кто умеет обращаться с данными, визуализировать, анализировать и изучать их.
В определенном смысле, исследования, основанные на данных – продолжение уже существующих ранее тенденций. После отказа от философского учения Аристотеля с 16-17 веках, научный прогресс основывался на эмпирическом эксперименте и наблюдении. Беспрецедентные наблюдения за небом Тихо Браге привели к открытию законов движения планет Кеплером в 17 веке и предвосхитили открытие закона всемирного тяготения Ньютона и, в дальнейшем, общей теории гравитации Эйнштейна. Ученые всегда сражались с данными; отличие состоит только в том, что сейчас эта борьба все чаще занимает центральную часть научного процесса.
Растущая ориентация науки на данные уже приводит к появлению новых подходов к решению задач: в эру БАК и LSST, наиболее интересные исследования проводятся теми, кто умеет применять высоко эффективные статистические алгоритмы для изучения крупных, собранных целыми сообществами, массивов данных. Они проводятся благодаря применению новых статистических подходов, новых алгоритмов машинного обучения, новых и более быстрых схем классических методов исследований в ранее недостижимом масштабе. Вкратце, новая «порода» ученых должна состоять из разносторонне обученных экспертов в области статистики, компьютерных наук, создания алгоритмов, разработки программного обеспечения и (возможно, в последнюю очередь) также в предметной области. От физики элементарных частиц до генетики, от биохимии до нейробиологии, от океанографии до атмосферной физики, исследования все больше основываются на данных, а признаков того, что скорость получения данных в ближайшем будущем станет падать, пока что нет.
Ситуация в сфере разработки программного обеспечения такова: ни одна работа не может обойтись без написания кода. Пока код не является хорошо написанным, хорошо задокументированным и открытым для сообщества, такой первостепенный параметр как воспроизводимость исследовательского процесса будет находиться под угрозой. О существовании кризиса невоспроизводимости в науке, необходимости новых форм публикации, открытости и доступности исследований, кода и данных, написано достаточно много. Я не стану останавливаться на этой проблеме.
Я хочу остановиться на главенствующей роли оптимизированного специализированного программного обеспечения для анализа и визуализации крупных массивов данных, а также рассказать о его центральной роли в современном науке. Мой соавтор Гаель Вароко (Gael Varoquaux) и его коллеги не так давно опубликовали статью, аргументирующую это утверждение и мнение, что хорошо задокументированные и протестированные коды научных программ являются необходимыми не только для вопроизводимости в современных научных исследованиях, но также для развития исследований самих по себе. Новые исследования не могут базироваться на старых результатах, просто описанных на бумаге, в то время как сам процесс их получения заключен в не задокументированном коде, забытом где-то у кого-то в ноутбуке. Как пишут Бакхейт и Донохо (Buckheit, Donoho):
Статья по вычислительной науке с точки зрения научной публикации не является академическим обучением сама по себе, а является рекламой академического обучения. Непосредственное обучение это среда полной разработки программного обеспечения и полный свод инструкций, генерирующих полученные показатели.
Публикация кода кажется последним по важности делом, однако простая перепечатка кода недостаточна. Как сказал в своем выступлении на RuPy 2013 Брендон Роудс (Brandon Rhodes): «В тот момент, когда программа работает, лучше сказать, что она едва работает». Вывод кода научной программы для использования его людьми вне исследовательской группы, которая его сгенерировала, требует значительных инвестиций. В этом состоит невероятная ценность проектов NumPy, SciPy, Scikit-learn и ряда других: они дали исследователям инфраструктуру, в рамках которой можно делиться кодом; затем рецензировать его на github и публиковать для пользы всего исследовательского сообщества.
Это подводит нас к основной проблеме академической школы: несмотря на центральную роль хорошо задокументированного и исполненного программного обеспечения в современной парадигме научного исследования, академическая школа была особенно успешной в противодействии именно той практике, которая могла бы привести ее к успеху. В модели «публикуй-или-умри», которая доминирует в большинстве исследовательских институтов, любое время, потраченное на создание и описание программных инструментов – это время, отнятое у написания исследовательских работ, которые являются основной валютой поощрения в структуре академической среды. В результате, кроме отдельно стоящих случаев, те, кто фокусируется на воспроизводимости и открытом программном обеспечении, имеют меньше шансов составить резюме, необходимое для продвижения по карьерной лестнице в академической среде. И эти бедняги, чья польза заключается в разработке программного обеспечения для ученых, а не написании исследовательских трудов, окажутся на задворках академического сообщества.
В некоторой степени такие несостыковки существовали всегда. Академическая система всегда поощряла некоторые умения в ущерб другим: преподавательская работа является классическим примером важнейшего умения, которое постоянно маргинализировалось. Однако в современной ситуации есть два отличия, которые делают ее еще более тревожной:
В результате этой подмены, квалифицированные исследователи все чаще уходят с исследовательской работы на работу в промышленность. Несмотря на существование в академической среде позиций, непосредственно связанных с разработкой программного обеспечения, они обычно гораздо ниже оплачиваются, не престижны и не имеют перспектив роста в рамках преподавательской должности. Позиции, которые предлагает индустрия, привлекательны: они позволяют решать интересные и актуальные проблемы; они предлагают высокую оплату и премии; они предлагают реальную альтернативу временным «потогонным» позициям после аспирантуры, и зачастую поощряют исследования и публикации по фундаментальным вопросам. Возможно, наиболее важно то, что индустрия предлагает позиции с реальными возможностями престижной работы и карьерного роста. Чудо заключается в том, что кто-то из нас вообще до сих пор остается на работе в академических учреждениях.
Я особенно обеспокоен этим явлением в моей родной отрасли – астрономии и астрофизике. Проект LSST наращивает темпы и планирует достичь расцвета к концу это декады. Его цель – обработка 30TB данных за ночь в режиме реального времени к концу этого десятилетия, является крайне амбициозной. Для обработки такого объема данных проект, скорее всего, будет искать десятки исследователей-астрономов, умеющих анализировать данные. Учитывая набор требований к кандидатам, уровень зарплат и перспективы для инженеров в сфере академических исследований, я сильно сомневаюсь в том, что проект сможет привлечь достаточное количество кандидатов на данные вакансии.
Я далеко не единственный человек, задумывающийся об этих проблемах. Я обсуждал эти вопросы со многими людьми как из страны, так и мира и знаю, что существуют руководители и целые инвестиционные фонды, занимающиеся именно этими проблемами. Однако практическое решение этой проблемы по большому счету неясно. Жалобы на академическую культуру также далеко не новы: то, что я говорю, уже было написано в «Законе Академического престижа» Дейдре МакКлоски (Deirdre McCloskey): «Чем полезнее отрасль, тем ниже ее престиж». Несмотря на то, что в оригинале автор жаловалась на низкий статус работ студентов-первокурсников, ее мысли вполне применимы к текущей ситуации.
Я считаю, что концепция престижа – ключевая проблема: ее решение лежит в плоскости принятия мер, чтобы уравнять академическую среду и индустрию и повысить престиж тех, кто уже работает над разработкой программных инструментов, необходимых для обработки данных в научных исследованиях. Вот несколько мер, которые исследователи, инвестиционные агентства, и руководители могут предпринять для решения данной проблемы:
Боюсь, что без этих изменений в академической культуре прогресс в научных исследованиях уже в ближайшее время существенно замедлится.
Мы живем в интересное захватывающее время, когда глубина и ширина наших научных познаний мира движутся вперед все увеличивающейся способностью собирать, хранить, обрабатывать и изучать массивы данных ранее невиданного масштаба. Чтобы сохранить эту скорость развития лучшие исследователи должны иметь мотивы остаться в пределах научного сообщества. Это не простая для разрешения проблема, однако даже самые небольшие усилия могут гарантировать здоровье и стабильность научно-исследовательскому сообществу в будущем.
Комментарии