Учёные доказали — не аргумент: как проверять данные

Q: Почему учёные ошибаются?

Потому что они люди, а люди подвержены ошибкам, предвзятости и ограничениям методов. Наука учитывает это и строит систему проверки, где важны повторения, критика и пересмотр выводов.

Q: Что такое кризис воспроизводимости?

Это ситуация, когда значительная часть исследований плохо повторяется при новых проверках. Особенно громко об этом заговорили после проектов массовой репликации в психологии и смежных науках.

Q: Как проверить научные данные без специального образования?

Смотри на автора, год, журнал, размер выборки и наличие независимых повторений. Уже этих пяти пунктов хватает, чтобы не вестись на половину информационного фокуса.

Q: Насколько можно верить исследованиям?

Верить можно не лозунгу, а качеству метода. Чем прозрачнее дизайн, больше выборка, лучше репликация и честнее ограничения, тем выше доверие.

Содержание

Почему утверждение учёных не всегда бывает правдой?
Что такое p-hacking и как он искажает результаты?
Когда нельзя считать научные доказательства аргументом?
Как распознать надёжное исследование среди множества данных?
Чем отличается хорошее научное исследование от плохого
Что делать на практике, если тебе машут исследованием
Спроси про источник
Проверь, было ли повторение
Смотри на выборку и эффект
Не пугайся противоречий
Что ещё хочется знать
Почему учёные ошибаются?
Что такое кризис воспроизводимости?
Как проверить научные данные без специального образования?
Насколько можно верить исследованиям?

Время чтения 11 минут

На приёме часто слышу: «Ну это же учёные доказали». Нет, булки-пчёлки, фраза «учёные доказали» — не аргумент сама по себе, потому что важно, какие учёные, что именно они проверяли, на ком и удалось ли это повторить.

Почему утверждение учёных не всегда бывает правдой?

Короткий ответ такой: наука работает не как оракул в белом халате, а как очень придирчивый процесс проверки ошибок. Поэтому учёные ошибаются, спорят, переделывают выводы и иногда красиво садятся в лужу. И в этом, как ни странно, её сила, а не позор.

Раньше многим казалось, что если рядом с фразой стоит слово «исследование», то спор окончен, можно расходиться и торжественно закрывать рот всем родственникам в чате. Но потом пришёл кризис воспроизводимости, и выяснилось, что часть ярких результатов повторяется плохо или не повторяется вообще. В крупном проекте Open Science Collaboration (Science, 2015) смогли воспроизвести лишь около 36% психологических исследований. Не потому, что все учёные злодеи с подкрученными усами, а потому, что реальность сложнее пресс-релиза.

Тут в игру вступает мозг. Эффект подтверждения — это когда префронтальная кора, которая должна думать, слегка ленится, а лимбическая система радостно хватает то, что совпадает с нашими убеждениями. Если тебе нравится идея, что кофе продлевает жизнь, мозг такой: «Отлично, берём». Если завтра выйдет статья, что кофе портит сон и повышает тревожность, тот же мозг делает вид, что оглох.

Научная грамотность начинается в тот момент, когда тебя интересует не заголовок, а способ, которым к нему пришли.

Кстати, Даниэль Канеман много писал о двух режимах мышления: быстром, автоматическом и медленном, аналитическом. Когда мы читаем «учёные доказали», включается первый режим — быстрый и доверчивый. А критическое мышление требует второго, того самого, который ворчит, просит таблицу, размер выборки и не верит в чудеса, даже если их обещает человек в пиджаке и со слайдами.

Что такое p-hacking и как он искажает результаты?

P-hacking — это подгонка анализа под красивый результат, когда исследователь перебирает варианты, пока не найдёт статистическую значимость. Формально цифры могут выглядеть прилично, но по сути это попытка выиграть в научную рулетку, крутя барабан до тех пор, пока не выпадет нужное число. Потом выходит статья, а читатель думает, что перед ним гранитная истина.

Сама p-value не злодейка. Проблема начинается, когда из десятков переменных, подгрупп и способов обработки данных выбирают только те, где получилось «значимо». Симмонс, Нельсон и Симонсон (Psychological Science, 2011) показали, что гибкость в сборе и анализе данных резко увеличивает риск ложноположительных результатов. По-человечески это выглядит так: сначала ты стреляешь по сараю, а потом дорисовываешь мишень вокруг дырки.

В бытовой жизни это очень похоже на подругу, которая перепробовала двадцать диет, а потом говорит: «Мне помогает только сок сельдерея по вторникам». Хотя, возможно, ей помогло, что она просто стала меньше есть на ночь и больше спать. Но мозгу нравится история с волшебной кнопкой. Дофамин любит простые объяснения, а статистика — нет, она вообще дама неприятная, требует дисциплины.

Именно поэтому научная грамотность включает неприятный, но полезный вопрос: исследование было заранее зарегистрировано или гипотезу придумали уже после просмотра данных? Если второе, то учёные доказали не аргумент, а повод прищуриться. Сейчас всё чаще ценят preregistration, открытые данные и репликацию исследования — не потому, что учёные внезапно стали святыми, а потому, что система учится ставить замки от человеческой хитрости.

Инфографика о научной грамотности: p-hacking, выборка, репликация и признаки надёжного исследования — Научная грамотность: как отличить исследование от шумной сенсации | Роман Ямилев. Главный в Мозгоправочной

Когда нельзя считать научные доказательства аргументом?

Нельзя считать научные доказательства аргументом, когда тебе подсовывают ссылку на одно исследование как на окончательный приговор. Одной статьи мало, особенно если выборка крошечная, эффект слабый, а результат никто не проверял повторно. В науке важен не одиночный выстрел, а серия попаданий.

Отдельно настораживают ситуации, когда вывод звучит слишком широко по сравнению с данными. Проверили 42 студентов в одном университете, а в заголовке уже «люди с высоким интеллектом всегда делают Х». Серьёзно? Это как попробовать один пельмень и объявить себя гастрономическим экспертом по всей Восточной Европе.

Есть и другая ловушка — корреляцию продают как причинность. Если у людей с тревогой хуже сон, это не значит, что только сон всё вызывает, хотя миндалина, кортизол и гиперактивация симпатической нервной системы тут правда участвуют. Мозг любит линейные сказки: нажал кнопку — получил результат. Жизнь, зараза, устроена с кучей обратных связей.

Тут я всегда мысленно отбираю микрофон у любителей фразы «британские учёные доказали». Если не сказано, кто авторы, какой год, какой журнал, что за метод и была ли репликация, перед тобой не аргумент, а ритуальное заклинание для доверчивой аудитории. Маги, гадалки и некоторые блогеры пользуются одной схемой: добавь таинственный авторитет, и человек перестанет задавать вопросы.

Как распознать надёжное исследование среди множества данных?

Надёжное исследование обычно не кричит, а спокойно показывает метод, ограничения и цифры. У него понятная выборка, прозрачный анализ, внятные критерии воспроизводимости и желательно независимые повторения. Если авторы честно пишут, где слабые места, это хороший знак, а не повод обидеться.

Смотри на четыре вещи. Первая — размер и качество выборки: 20 человек для громких выводов маловато, как один сосед для переписи населения. Вторая — репликация исследования: например, многолабораторный проект Many Labs под руководством Клейн и коллег (Social Psychology, 2014) показал, какие эффекты держатся, а какие сдуваются при повторе. Третья — эффект по величине, а не только p < 0,05. Четвёртая — есть ли метаанализ, где собирают данные из многих работ, а не машут одной удачной статьёй.

И ещё смотри, не продают ли тебе нейромиф. Упоминание fMRI, дофамина или префронтальной коры само по себе ничего не гарантирует. Красивые картинки мозга иногда действуют на людей почти как свечка, мантра и карта Таро — внушительно, туманно и очень убедительно для тех, кто не любит детали. Хотя на деле хороший нейронаучный результат требует аккуратного дизайна, нормальной статистики и осторожной интерпретации.

По данным Иоаннидиса (PLOS Medicine, 2005), во многих областях существенная часть опубликованных результатов может оказываться ложной именно из-за сочетания маленьких выборок, предвзятости публикаций и гибкого анализа. Звучит мрачно, но на практике полезно: вместо слепой веры появляется вменяемый скепсис. А это уже неплохая прививка от информационного цирка.

Чем отличается хорошее научное исследование от плохого

Хорошее исследование отличается от плохого не громкостью заголовка, а качеством конструкции. В хорошем есть чёткая гипотеза, заранее понятный метод, прозрачная обработка данных и скромность в выводах. Плохое любит расплывчатость, сенсацию и фразы в духе «мы почти нашли кнопку счастья».

У хорошей работы авторы не прячут искажение данных под ковёр и не делают вид, что статистическая значимость равна жизненной важности. Они показывают ограничения, обсуждают альтернативные объяснения и не боятся, что кто-то захочет повторить их результат. Плохая работа, наоборот, похожа на студента, который пришёл без конспекта, но с очень уверенным лицом.

Если совсем по-простому, хорошее исследование выдерживает попытку его сломать. Здесь нужен аналитический когнитивный стиль — тот режим, когда префронтальная кора не даёт базальным ганглиям тащить тебя по привычке к выводу «ну раз напечатали, значит правда». Поэтому вопрос «насколько можно верить исследованиям» правильный. Верить можно не ярлыку, а процедуре проверки.

И вот здесь круг замыкается: учёные доказали не аргумент, пока ты не увидела, как именно они это делали. Наука хороша не тем, что никогда не ошибается, а тем, что умеет себя чинить. Иногда со скрипом, иногда с публичным позором, но всё же чинит. А нам с тобой полезно не преклоняться перед авторитетом, а уметь читать мелкий шрифт.

Что делать на практике, если тебе машут исследованием

Спроси про источник

Попроси не пересказ, а автора, год и журнал. Это сразу охлаждает пыл тем, кто бросается словами «доказано», потому что гиппокамп любит уверенные истории, а проверка деталей переводит дело в более медленный и трезвый режим.

Проверь, было ли повторение

Если результат никто не реплицировал, держи дистанцию. Одно исследование — как первое свидание: может быть мило, но о совместной ипотеке говорить рановато.

Смотри на выборку и эффект

Маленькая группа и крошечный эффект не повод менять жизнь. Если тебе интересно тренировать такой скепсис на жизненных историях, загляни в книгу «Зверские притчи» — иногда барсук с проблемами мышления объясняет когнитивные ловушки лучше, чем сухая лекция.

Не пугайся противоречий

Если научные данные противоречивые, это не значит, что наука сломалась. Это значит, что данных пока мало или тема сложная, а значит, лучше подождать метаанализов и не делать культ из первой попавшейся публикации.

Что ещё хочется знать

Почему учёные ошибаются?

Потому что они люди, а люди подвержены ошибкам, предвзятости и ограничениям методов. Наука учитывает это и строит систему проверки, где важны повторения, критика и пересмотр выводов.

Что такое кризис воспроизводимости?

Это ситуация, когда значительная часть исследований плохо повторяется при новых проверках. Особенно громко об этом заговорили после проектов массовой репликации в психологии и смежных науках.

Как проверить научные данные без специального образования?

Смотри на автора, год, журнал, размер выборки и наличие независимых повторений. Уже этих пяти пунктов хватает, чтобы не вестись на половину информационного фокуса.

Насколько можно верить исследованиям?

Верить можно не лозунгу, а качеству метода. Чем прозрачнее дизайн, больше выборка, лучше репликация и честнее ограничения, тем выше доверие.

А у тебя, мои трудолюбивые булки-пчёлки, бывало, что фраза «это доказано» звучала убедительно, а потом рассыпалась? Подписывайся на Мозгоправочную в Telegram или в MAX — там коротко и по делу. Роман Ямилев. Главный в Мозгоправочной