Онлайновые наукометрические показатели
В западной научной литературе отмечается, что вызванный международными инициативами открытого доступа к результатам исследований рост количества публикаций в открытом доступе в институтских онлайновых репозиториях создает в настоящее время уникальный исторический момент для разработки и использования онлайновой метрики в оценке научной деятельности (Research Metrics). Использование онлайновых показателей в процессе принятия решений, например, при профессиональной переквалификации (научной аттестации) или при выделении грантов и т.п., создают ряд важных для научной деятельности мотиваций и новых возможностей [8]: 1)мотивировать большее количество исследователей открыть доступ к своим статьям путем их самоархивирования (размещения в онлайновых репозиториях); 2)отслеживать рост открытого доступа по дисциплинам, странам и языкам; 3)осуществлять навигацию по статьям в открытом доступе, используя связи цитирования и их ранжирование по индексу влияния; 4)измерять научную деятельность и производительность; 5)выбирать кандидатов для научных грантов; 6)выбирать результаты исследований для научных грантов; 7)отслеживать основные научные направления в переложении на отдельных ученых, институты, журналы, области науки, нации и т.п.; 8)анализировать и предсказывать текущие и будущие научные направления и тенденции; 9)обеспечивать студентов учебными и обучающими ресурсами (через навигацию по индексу влияния) в более эффективном виде, чем это делают Google и другие поисковые системы общего назначения. В качестве первого шага к построению онлайновой метрики для оценки результатов исследований ниже рассматривается возможная статистическая база и примеры онлайновых показателей, которые могут быть построены на этой базе.
Статистическая база для онлайновых показателей
Все запросы к статьям и материалам в онлайновых информационных системах стандартным образом фиксируются в лог-файлах (электронных журналах) соответствующих Интернет серверов. Система Соционет собирает и обрабатывает данные из стандартных лог-файлов, а также сведения из других разделов Соционет, чтобы построить максимально полную статистическую базу для наукометрических исследований. Онлайновая статистика в полном виде собирается в системе Соционет с 01.01.200752. Это означает, что в начале каждых календарных суток: а)отфильтровываются данные о загрузках/просмотрах из лог-файла сервера socionet.ru, а также б) из базы данных Соционет собираются другие необходимые сведения. Эти данные записываются в файлы и хранятся на ftp://socionet.ru/raw-stats/ в простом текстовом формате. Для каждой календарной даты могут существовать файлы с данными нескольких разных типов (если на заданную дату какие-то файлы отсутствуют, это означает, что соответствующие данные в этот день отсутствовали). Имена файлов с данными статистики разных типов различаются первой буквой, после которой в имени стоит календарная дата, для которой файлы построены. Файлы могут начинаться с: "s" – статистика просмотров/загрузок; "r" – данные о размере коллекций и количестве публикаций у авторов; "x" – сведения о связях между материалами, которые необходимы для агрегирования статистики просмотров/загрузок. Ниже приводится описание формата данных для каждого типа. Файлы исходной статистики Соционет свободно доступны на ftp://socionet.ru/raw-stats/ всем желающим для контроля правильности расчета (независимого воспроизведения) показателей, приводимых в Соционет, а также для использований в наукометрических исследованиях и для конструирования собственных показателей. Тип данных S. В файлах, имя которых начинается с буквы "s", находится статистика просмотров и загрузок статей/материалов в базе данных Соционет. Подобные сведения получены путем фильтрации лог-файла сервера socionet.ru и содержат статистику запросов к статьям и материалам в Соционет (за основу взята методика системы LogEc53). Файлы этого типа имеют следующую структуру: 1)дата--------2)сервер-----3)код материала------------4)вид--5)исходящий адрес----
2007-02-18 RuPEc repec:aal:abbswp:99-1 a: 62.158.21.139
2007-02-18 RuPEc repec:anp:en2005:047 a: 66.36.241.193
2007-02-18 RuPEc repec:apr:aprpdp:dp0002 d: 72.36.176.130 203.94.243.2
2007-02-18 RuPEc repec:bar:bedcje:2006146 a: 66.36.229.227
2007-02-18 RuPEc repec:bca:bocawp:05-18 a: 74.52.83.122
2007-02-18 RuPEc repec:bep:mchbio:1025 d: 85.140.199.95 где
1) дата (date) – год-месяц-день обращения к материалу;
2) сервер (base) – имя сервера (RuPEc означает код сервера socionet.ru), на котором получено и обработано обращение к статье/материалу, в общем случае данные о запросах к статьям/материалам могут собираться с разных серверов;
3) код материала (handle) – уникальный код статьи или материала, который является единым для данного информационного объекта в информационных системах на разных серверах (base), экспонирующих статьи/материалы с информационного хаба Соционет [10];
4) вид (request) – определяет вид запроса и может быть только "a:" или "d:",
"a:" – запрошены только метаданные (карточка, описатель статьи/материала)
"d:" – запрошен полный текст статьи/материала, т.е. при просмотре метаданных пользователь нажал ссылку "полный текст";
5) исходящий адрес (ip) – уникальный идентификатор компьютера в сети Интернет (IP-адрес), с которого пришел запрос на данный материал. При обработке суточной порции лог-файлов в них фиксируются запросы от сетевых "роботов" и "индексаторов" (их IP адреса приводятся в начале каждого файла с суточной порцией исходных данных) и отфильтровываются "дубли". Считается, что IP-адрес принадлежит сетевому "роботу" или "индексатору", если от него исходит серия запросов через каждые 10-30 секунд. Устранение дублей означает, что в отфильтрованный файл попадает только по одному запросу из имеющих одинаковый набор всех описанных выше 5-ти параметров. Тип данных R. В файлах, имя которых начинается с буквы "r", – сведения о размерах коллекций (количество в них статей/материалов) и количестве статей/материалов, указанных в связях от персональных профилей авторов на определенную дату. В файл этого типа заносятся только те коллекции/авторы, у которых на текущую дату зафиксированы изменения в количестве принадлежащих им статей/материалов. Файлы этого типа имеют следующую структуру: 1)дата-------2)кол-во-3)код объекта-------------------------------------------4)вид
2007-03-15 165 repec:vlg:vlgwps coll
2007-03-15 255 repec:wej:wldecn coll
2007-03-15 6 repec:rus:socper:zagorulko_elena.62537-17 auth
2007-03-15 1 repec:rus:socper:zagorulko_elena.62537-47 auth
2007-03-15 41 repec:rus:doahtw:lbn-1 auth
2007-03-15 2 repec:rus:doahtw:lbn-10 auth где
1) дата в формате год-месяц-день; 2) количество статей/материалов на дату из столбца 1 для объекта информационного пространства Соционет, соответствующего коду из столбца 3, значение "-1" в этом столбце означает отсутствие на текущую дату коллекции/автора, код которого указан в 3-м столбце, при условии, что в предыдущий день данный объект существовал; 3) код объекта, для которого зафиксировано количество принадлежащих ему статей/материалов на дату из первого столбца; 4) вид объекта, может быть только "coll" - коллекция, или "auth" - персональный профиль,
- если "coll", то в столбце 2 стоит количество статей/материалов коллекции с кодом из столбца 3,
- если "auth", то в столбце 2 стоит количество статей/материалов, связанных с персональным профилем с кодом из столбца 3. Тип данных X. В файлах, имя которых начинается с латинской буквы "x", – данные о связях материала с другими статьями/материалами в базе данных Соционет. В файл данного типа заносятся только те материалы, у которых на текущую дату зафиксированы изменения в количестве и содержании связей. Об использовании этих данных для построения показателей см. в следующих разделах. Файлы этого типа имеют следующую структуру: 1)дата-----2)код объекта------------------------------3-4)тип связи-5)коды связанных объектов 2007-05-20|repec:rus:ecoper:parinov_sergey.56054-1|publication|11|repec:rus:rardes:1762001 …
2007-05-08|repec:rus:ecoorg:cemi-ras_admin.45009-org1|collection|6|book_ekonomika_rus_cemnew … Каждая строчка в файлах этого типа относится к одному объекту и имеет 5 колонок с разделителем "|" (вертикальная черта); Содержание данных в колонках 1) дата в формате год-месяц-день, на которую зафиксированы изменения в связях; 2) код объекта (статьи/материала), связи которого изменились на текущую дату; 3) название поля в метаданных описания объекта, в котором изменились связи (если у объекта есть другие поля со связями, в которых не было изменений, то в файл они не записываются); 4) ID поля, в котором изменились связи (значение поля id относительно таблицы datatypes базы данных Соционет); 5) перечень кодов связанных объектов, с которыми установлены связи исходного объекта, разделителем является пробел (в примерах выше в этой колонке приведено только по одной связи), если в этой колонке стоит слово "DEL", то это означает отсутствие связей на текущую дату при условии, что в предыдущий день они были. Суточные порции статистики из описанных выше файлов сразу после их создания загружаются в общую базу данных, которая затем используется для расчета и хранения требуемого множества показателей для заданных периодов времени на накопленных временных рядах.
|