Визуализация в инфометрии — красота, да и только
Прежде чем обратиться к основной теме данной статьи — визуализации в инфометрии, поясним читателям толкование данного термина. Согласно англоязычной части Википедии, инфометрия — это дисциплина, предметом которой являются количественные измерения хранимой и используемой информации. В более объемной публикации на данную тему1 сообщается, что в инфометрии применяются методы математики (в первую очередь матстатистики и теории вероятности), информатики, социометрии и других наук, а результатами инфометрических исследований, в свою очередь, пользуется целый ряд дисциплин — социология науки, история науки, политика в области планирования и финансирования науки, организация библиотечного дела, оценка эффективности отдельных научных школ и направлений и т.д.
Для того чтобы лучше понять предмет исследования инфометрии, следует обратиться к рис. 1, на котором показаны составляющие этой дисциплины. Из определения каждого из них станет более понятен и обобщающий термин «инфометрия».
Одним из наиболее старых понятий из перечисленных на рис. 1 является библиометрия — область знания, которая занимается анализом библиографических данных. Данный термин ввел в 1969 году английский ученый Алан Причард. Библиометрия анализирует распределение публикаций по времени, областям знания, географическим регионам, позволяя выявить связи между объектами, провести их классификацию. Статистический анализ публикаций и их цитирования позволяет выявлять закономерности и темпы развития различных отраслей знания в эволюции и их взаимосвязь.
Рис. 1. Соотношение понятий инфометрия, библиометрия,
киберметрия, наукометрия и вебометрия (источник: Bjorneborn)
Наукометрия, которая занимается статистическими исследованиями структуры и динамики потоков научной информации, во многом опирается на методы библиометрии. В библиометрии исследуются такие параметры, как количество научных журналов, публикуемых в заданные промежутки времени; количество заказов на журналы в информационных центрах; количество ученых, публикующих статьи по данной тематике, и т.п. Одним из методов исследования библиометрии является анализ цитируемости статей и журналов. При этом применяется ряд индексов — количество ссылок на журнал; количество ссылок на журнал, деленное на количество содержащихся в нем публикаций, и т.п. Анализ данных параметров позволяет судить об актуальности и перспективности того или иного научного направления. Распределение ученых по количеству публикаций дает возможность выявить их продуктивность, определить ранг ученого, его значимость.
Киберметрия — это более поздний термин2. Он отражает новые возможности по обработке информации, хранимой в электронном виде, и ее визуализации. Киберметрия дала новый импульс развитию инфометрии и наукометрии. Появление баз данных и компьютерных методов анализа хранимой в них информации (в том числе методов текстомайнинга и дейтамайнинга) позволило ввести ряд новых количественных критериев для оценки состояния науки в целом и отдельных ее областей, а также оценить вклад различных стран в общемировой прогресс.
Вебометрия появилась последней из терминов, перечисленных на рис. 1. Она является подмножеством киберметрии и связана с изучением параметров web-пространства и выявлением в нем информационных профилей и структур. Термин «вебометрия» был введен Алмайндом (Almind) и Ингверсеном (Ingwersen) в 1997 году.
Если в библиометрии источником изучения является научный журнал или публикация, то в вебометрии это сайт или веб-страница. Многие понятия, которые сформировались в библиометрии, применимы в той или иной степени и к веб-пространству.
Гиперссылки в определенной мере являются аналогом цитирования в печатных публикациях. На рис. 2 показаны возможные варианты гиперссылок в Web.
Рис. 2. Возможные варианты гиперссылок
(источник: Bjorneborn, 2005)
Согласно рис. 2, D имеет входящую ссылку (inlink) на B, B — исходящую ссылку (outlink) на D. Е и F являются взаимно связанными. А имеет опосредованную исходящую ссылку на F, поскольку F доступна по прямой цепочке ссылок. I изолирована. D и E — совместные исходящие ссылки на F?; F и D совместны с E.
Следует отметить, что граф цитирования в научных журналах имеет те же типы ссылок. Поэтому графы, отражающие структуру цитирования публикаций и ссылок между веб-сайтами, имеют сходный вид. Удобство использования Web для инфометрического анализа очевидно. Публикации в Web появляются быстрее, чем в журналах и базах данных. При этом библиометрия не вытесняется вебометрией. Большая часть серьезных научных публикаций по-прежнему помещается именно в научных журналах и часто доступна в первую очередь именно в бумажном виде.
Получаемые графы, построенные на основе взаимного цитирования, могут анализироваться на базе теории графов и методов SNA3.
По аналогии со стандартами библиометрии в вебометрии вводится понятие WIF (Web Impact Factor), которое определяется как число ссылок на сайт извне, деленное на количество страниц сайта. Существует целый ряд других критериев, связанных со степенью доверия информации на веб-сайтах, качеством представления информации, степенью удобства навигации на сайте (юзабилити), степенью похожести на уже существующие сайты и т.п. К подобного рода характеристикам относится средний размер отдельных страниц, объем использования различных технологий, например Flash, и т.п.
Существует целый ряд технологий, которые отслеживают степень интереса к тем или иным страницам.
Одним из наиболее ярких примеров практических приложений вебометрии является ресурс, доступный по адресу: http://www.webometrics.info/. Здесь мировые университеты ранжируются по уровню представления их научной деятельности в Web.
Междисциплинарный подход реализуется там, где совместно используются для изучения одного и того же явления методологии и теоретические основы разных наук, в том числе далеких друг от друга дисциплин. Отношения между различными дисциплинами стимулируют не только рост знаний, но и появление новых дисциплин. World Wide Web — это хорошая среда для выявления междисциплинарных связей.
Наглядный пример анализа междисциплинарных связей приведен на рис. 3. Здесь показано, как связаны различные научно-исследовательские и академические сообщества. Крупные эллипсы выделяют отдельные направления экономики различного профиля (прикладная экономика, организация и управление промышленностью, бизнес-менеджмент и др.).
Рис. 3. Граф по связям университетской науки в области экономики в Испании
(сайты по экономике показаны синим цветом)
(источник: http://www.cindoc.csic.es/cybermetrics/articles/v11i1p4.html)
Видно, что в графе присутствуют ссылки (как в одну сторону, так и в другую) на сайты, относящиеся к математике и физике (показаны окружностями красного и зеленого цветов).
На рис. 4 приведены данные еще одного исследования на эту тему. Каждый круг на нем соотносится с научной публикацией, посвященной конкретной тематике. На рисунке показано 776 ключевых тем. Линии, которые соединяют узлы, отображают публикации, охватывающие более одной темы. Подробную информацию о данном проекте можно получить по ссылке: http://www.visualcomplexity.com/vc/project_details.cfm?id=434&index=85&domain=Knowledge%20Networks.
Рис. 4. Граф распределения научных публикаций в США по направлениям
В оригинальной работе приведены графы распределения научных знаний в разных странах, в том числе в Великобритании, Франции, Австралии, Германии. Из анализа этих данных видно, например, что профиль Великобритании во многом схож с профилем США, поскольку эти страны близки во многих смыслах — от политического до научного.
Еще одно исследование на данную тему иллюстрирует рис. 5. Приведенная на нем карта была составлена на базе использования так называемого метода течения информации (information flow method), разработанного для сложных объемных сетевых процессов. Суть его состоит в выделении в сложном графе наиболее существенных связей и представлении картинки в наглядном виде. Подробное описание методики можно найти по адресу: http://www.eigenfactor.org/map/methods.htm. Синие линии обозначают цитирование между предметными областями. Чем толще и темнее стрелка, тем больше объем цитирования. Как видно из рисунка, наиболее взаимоцитируемыми областями являются медицина, молекулярно-клеточная биология и нейробиология.
Рис. 5. Граф распределения научных публикаций (источник: http://www.eigenfactor.org)
Говорить о структуре научных связей позволяет непосредственный анализ топологии академической сети. Например, на рис. 6 показана топология европейской академической сети. На рисунке отмечена совокупность веб-связей 535 университетов из 14 европейских стран на базе информации, представленной на сайте www.webometrics.org. Анализ графа показывает, что национальные научные сети связаны между собой преимущественно посредством ведущих национальных университетов.
Рис. 6. Европейская академическая сеть
Определенный интерес представляет анализ топологии научных публикаций в Википедии. На рис. 7 показана активность представления научных статей в англоязычной части Википедии (http://en.wikipedia.org). Рисунок отображает 659 388 статей, каждая из которых отмечена окружностью. Синими окружностями выделены статьи из области математики (их 3599), зелеными — научные, но не математические (6474), желтыми — технологические (3164). В качестве фона используются связанные со статьями иллюстрации.
Рис. 7. Распределение научных статей в информационном пространстве
англоязычной Википедии: а — общий вид; б — фрагмент
Как видно из рисунка, математический кластер является самым компактным, в то время как желтые круги (технические публикации) распределены по всему информационному полю.
В отличие от бумажной публикации научной статьи, где число авторов ограничено, wiki-статьи могут иметь сотни соавторов и соредакторов. Причем количество соредакторов может говорить как о степени интереса к выбранной предметной области, так и о дискуссионности темы.
На рис. 8 представлена карта, на которой показана частота редактирования wiki-статей в период с 6 февраля 2001 года по 6 апреля 2007 года. Чем крупнее точка на рисунке, тем больше раз редактировалась статья. Например, на рис. 8б видно, что среди статей о странах наибольшее количество редактирований относится к статьям о России, Бангалоре и Нидерландах.
Рис. 8. Распределение статей в информационном пространстве англоязычной Википедии п
о признаку частоты редактирования: а — общий вид; б — фрагмент
***
Вывод из всего вышесказанного напрашивается сам собой: на массивные данные надо смотреть с высоты птичьего полета, чтобы разглядеть в них то, что не видно вблизи… Визуализация больших объемов вебометрических данных дает весьма интересные результаты, и это направление наверняка будет развиваться.