Большие данные (big data) в экономической истории: скрытая угроза или новая надежда?
В любом наборе исходных данных самая надежная величина, не требующая никакой проверки, является ошибочной.
Третий закон Финэйгла
Сегодня понятие «больших данных» (big data) завоевывает внимание ученых из самых разных дисциплин. Благодаря популярной книге В. Майер-Шенберга и К. Кукьера проблема развития «больших данных» приобрела широкое общественное звучание [1]. Историки не остались в стороне: в нашумевшем «Историческом манифесте» четвертая глава называется «Большие вопросы, большие данные» [2]. Устойчивый интерес к данной проблематике существует, например, в экономической истории [3]. Можно сказать, что «большие данные» вошли в моду [4]. Важным шагом в обобщении подходов к проблеме «больших данных» в истории стала монография П. Мэннинга [5].
Под «большими данными» сегодня понимают подходы, инструменты и методы обработки структурированных, неструктурированных, неопределенно структурированных данных огромных объемов и значительного многообразия с целью получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста данных, распределенных по многочисленным узлам вычислительной сети. Уже и в инструментарий историков входят специальные языки программирования (например, R), пригодные для статистической обработки «больших данных» [6]. Все чаще встречаются рассуждения о том, что «большие данные» касаются не столько собственно объема данных, сколько их разнообразия и разнородности [7]. Хотя устоявшимся отличием «больших» и «малых» данных принято считать необходимость машинной обработки для «больших данных» и возможность ручной обработки «малых данных».
Строго говоря, в исторических исследованиях речь о «больших данных» пока не идет. Ведь под действительно большими объемами имеет смысл понимать машинно-генерируемые данные, которые, быть может, останутся от нашего время историкам будущего. В качестве определяющих характеристик для больших данных принято выделять пять свойств: объем (volume) в смысле величины физического объема для хранения данных, скорость (velocity) прироста данных, а значит и скорость обработки и получения результатов, их многообразие (variety) как возможность одновременной обработки различных типов структурированных и полуструктурированных данных. В последнее время к классической тройке формальных свойств присоединились и важные содержательные характеристики: достоверность (veracity) и изменчивость (variability). Заметим, что именно достоверность и непостоянство данных (особенно размещенных онлайн) привлекает особое внимание и экономических историков, и специалистов по исторической информатике.
Спор о данных фактически входит в старое русло, сравнивая преимущества и недостатки исследования генеральной совокупности и выборки. Именно по этой причине все устойчивее встречается различение между data и capta, подчеркивается разница между зарегистрированной информацией и выявленной информацией. Образно говоря, различают «данность» и «улов». Вместе с тем «данные» как источник для исторического исследования меняют привычную источниковедческую перспективу. Мы начинаем смотреть на видовое разнообразие источников не как на объективное осязаемое различие, а как на дополнительное виртуальное свойство, которое может быть как показано, так и просто указано в описании к оцифрованному документу [8].
Использование «больших данных» в истории выявляет две ключевые проблемы: во-первых, есть опасность потерять «источник» в его традиционном понимании, во-вторых, возникают очевидные проблемы с выявлением причинно-следственных связей, которые уступают место корреляциям. Проблема «потери» источника состоит в том, что данные — принципиально комплексный, составной источник, объединяющий не только многочисленные, но и многообразные первоисточники. С одной стороны, данные оказываются вторичными, но их преимуществом становится то, что они, в идеале, могут считаться цельным комплексом источников. С другой стороны, острые дискуссии о каузальности в историческом объяснении сегодня все чаще выходят на первый план, «большие данные» этой дискуссии добавляют техническую составляющую. Ведь при обработке «больших данных» важным оказывается вопрос о том, могут ли взаимосвязи (корреляция) заменить в объяснении причинность (каузальность).
Недаром в «цифровой гуманитаристике» (digital humanities) закрепилось различение «близкого» и «отдаленного» чтения [9]. Разница в том, что в «близком» чтении (close reading) автор полагается на себя и своих способности в поиске смыслов в прочитанном, а при «отдаленном» чтении (distant reading) большое значение уделяется алгоритму поиска, выявления и сопоставления нужных фрагментов в значительном корпусе источников (часто существенно превышающем физические возможности прочесть).
Так или иначе, работа с данными, бóльшими, чем прежде, входит в современные исторические и историко-экономические исследования. На примере проекта сотрудничества в области накопления и анализа исторической информации CHIA [10] П. Меннинг выделяет несколько принципиальных уровней: 1) получение данных (в том числе и с помощью сетевого краудсорсинга); 2) документирование данных (в т.ч. метаописание, курирование и гармонизация); 3) обработка данных (включая агрегирование и «добычу» данных); 4) анализ данных (позволяющий создавать модели и формулировать теории); 5) визуализация данных (в частности, создание интерфейса для запросов и выдачи результатов обработки данных).
Такой подход проповедует важную цель — создание глобального архива исторических данных (world-historical data resource) с самостоятельной системой хранения, документирования и анализа данных, которая бы основывалась на целостной распределенной модели реляционных баз данных. Но сослагательное наклонение в таких целеполаганиях всегда опасно. На сегодняшний день можно выделить три поколения ресурсов исторических данных:
1960–70: HRAF, ICPSR, NBER, OECD, WB [11];
1980–90: UNPOP, IPUMS, GENH, IROWS [12];
2000–10: CLIO-INFRA, GapMinder [13].
Первое поколение ресурсов исторических данных относится к послевоенному периоду, когда стали формироваться многочисленные преимущественно статистические базы данных. Второе поколение связано с распространением дискуссий о «глобализации» и насущной необходимостью глобальных экономических и межкультурных сравнений. Третье поколение ресурсов, вероятно, сможет по-настоящему представить всемирные «большие данные», причем помимо типичных исторических индикаторов уже нет препятствий к включению в многомерный статистический анализ климатических или генетических данных.
Вопрос о «больших данных» все больше претендует на важную роль в повестке дня экономической истории. При этом весьма уместными кажутся опасения М. Таллера, что «современное представление о цифровых инфраструктурах для гуманитарных наук, кажется, переоценивает идею публикации информации, поэтому инфраструктура для Digital Humanities в ряде последних дискуссий может быть настолько лишена аналитических соображений, что становится практически неотличимой от цифровой библиотеки (и к тому же не очень сложной)» [14]. Именно по этой причине вопрос, смотреть на источники пристально вблизи или алгоритмически выявляя связи и сети издалека, становится актуальным методологическим вызовом сегодняшнего дня и в экономической истории.
Примечания
Комментарии