ТЕКУЩАЯ РАБОТА
ПО СОЗДАНИЮ ЭЛЕКТРОННОГО АРХИВА КСЭ
Объединенная группа из новосибирцев и москвичей продолжает работу над
электронным архивом КСЭ. Сейчас все силы брошены на создание
ядра электронной библиотеки из основных работ по изучению
Тунгусской проблемы. Для этого проводится сплошное сканирование
монографий и тематических сборников по составленному предварительно
списку, который открыт для дополнений. Технически работа весьма трудоёмка и пока ставится задача
сформировать минимально достаточное ядро основных наработок. В дальнейшем библиотеку можно
расширять. Но пока надо сделать возможным сформировать базу для
дальнейшей содержательной работы над Проблемой. Своеобразную антологию
или хрестоматию Тунгуски. В дальнейшем она может стать основой и
прообразом Тунгусской энциклопедии.
Отсканированный материал будет записан на компакт-диски.
Для формирования электронной библиотеки с широкими возможностями
работы с текстами, иллюстрациями и библиографией потребуется
дополнительная трудоёмкая работа по распознаванию отсканированных
текстов и их верификации (сверке с оригиналом). Пока в распоряжении
нашей группы имеется один полный образец такого рода работы,
выполненный Валерием Ивановичем Зюковым с семьей (Москва) - "Показания
очевидцев", а также не полностью еще отработанный второй Тунгусский
сборник 1967 г., над которым работают Евгений Малиновский (Н-ск), Егор
Зубец и Валерий Зюков (Москва). Монографию Золотова отсканировала, по
ее словам, Лариса Павлова (Томск), но характер и объем выполненной
работы пока уточнить не удалось.
Поскольку наличных сил в нашем распоряжении очень мало, а работы
еще край непочатый, то мы меж собой договорились, что компакт-диски
с записями отсканированных текстов будем предоставлять желающим в
обмен на посильный фрагмент содержательной работы по формированию
электронного архива КСЭ, включая и электронную библиотеку.
О характере такой работы можно будет договориться индивидуально.
ИСТОЧНИКИ ПУБЛИКАЦИЙ ПО ПРОБЛЕМЕ ТМ,
ПОДЛЕЖАЩИЕ ПЕРЕВОДУ В ЭЛЕКТРОННУЮ ФОРМУ
(состояние на 03.07.2002)
Кринов Е.Л. Тунгусский метеорит. М.: АН СССР, 1949
Проблема Тунгусского метеорита. Томск: ТГУ, 1963
Васильев Н.В., Журавлев В.К., Журавлева Р.К., Ковалевский А.Ф., Плеханов Г.Ф. Ночные светящиеся
облака и оптические аномалии, связанные с падением Тунгусского метеорита. М.: Наука, 1965
Успехи метеоритики. Новосибирск: Ин-т геол. и геофиз. СО АН СССР, 1966
Проблема Тунгусского метеорита. Вып. 2. Томск: ТГУ, 1967
Золотов А.В. Проблема Тунгусской катастрофы 1908 г. Минск: Наука и техника, 1969
Современное состояние проблемы Тунгусского метеорита. Томск: ТГУ, 1971
Метеориты Сибири. Н-ск: Ин-т геол. и геофиз. СО АН СССР, 1971
Иванова Г.М., Львов Ю.А., Васильев Н.В., Антонов И.В. Выпадение космического вещества на
поверхность Земли. Томск: ТГУ, 1975
Проблемы метеоритики. Новосибирск: Наука. Сиб. отд., 1975
Космическое вещество на Земле. Новосибирск: Наука. Сиб. отд., 1976
Вопросы метеоритики. Томск: ТГУ, 1976
Фесенков В.Г. Метеориты и метеорное вещество. Избранные труды. Часть 3 - Тунгусский метеорит.
М., "Наука", 1978
Взаимодействие метеоритного вещества с Землей. Новосибирск: Наука. Сиб. отд., 1980
Васильев Н.В., Ковалевский А.Ф., Разин С.А., Эпиктетова Л.Е. Показания очевидцев Тунгусского
падения. Томск, 1981
Метеоритные и метеорные исследования. Новосибирск: Наука, Сиб. отд., 1983
Метеоритные исследования в Сибири. 75 лет Тунгусскому феномену. Новосибирск: Наука,
Сиб. отд., 1984
Дмитриев А.Н., Журавлев В.К. Тунгусский феномен 1908 года - вид солнечно-земных связей.
Новосибирск: ИГТ СО АН СССР, 1984
Космическое вещество и Земля. Новосибирск: Наука, Сиб. отд., 1986
Актуальные вопросы метеоритики в Сибири. Новосибирск: Наука, Сиб. отд., 1988
Следы космических воздействий на Землю. Новосибирск: Наука. Сиб. отд., 1990
Васильев Н.В., Плеханов Г.Ф., Андреев Г.В. О международной программе исследований Тунгусской
катастрофы 1908 года // Непереодические быстропротекающие явления в окружающей среде. 19-30 апреля.
Томск, 1990
Андреев Г.В., Васильев Н.В. О столкновительной эволюции биосферы на примере Тунгусской катастрофы
1908 года // Непереодические быстропротекающие явления в окружающей среде. 19-30 апреля. Томск,
1990
Васильев Н.В. Экологические последствия Тунгусской катастрофы 1908 г. // Проблемы радиоэкологии
и пограничных дисциплин. Выпуск 2, 1999
Проект Новосибирской группы
17 - 28.02.02
Комментарий:
В обсуждение выдвинутого новосибирцами проекта активно включился Г.Ф. Плеханов, компиляцию
наиболее ценных и актуальных замечаний и предложений которого мы приводим ниже.
Очень своевременными и полезными оказались предложения В. Зюкова, которые здесь также даны в
концентрированном виде.
В нашей текущей работе учтены и замечания Г. Андреева, В. Ромейко, Е. и Н. Колесниковых, С.
Кривякова. Всем мы выражаем свою признательность!
Б. Бидюков
КОНЦЕПТУАЛЬНЫЕ ПИСЬМА ПЛЕХАНОВА, КАСАЮЩИЕСЯ ФОРМИРОВАНИЯ ЭЛЕКТРОННОГО
АРХИВА
ПРЕДЛОЖЕНИЯ ПО БАЗЕ ДАННЫХ СООБЩЕНИЙ ОЧЕВИДЦЕВ
ПРОЕКТ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
ПРОЕКТ ОЦИФРОВКИ НАУЧНЫХ ПУБЛИКАЦИЙ
18 фев. 2002 г.
Активизацию работы новосибирской группы по разработке электронного архива КСЭ можно только
приветствовать. Но не надо забывать, что все это начинается не с чистого листа. Есть наработки
Ольги Федоровой, Володи Воробьева, Виталия Ромейко и т.д. Поэтому надо бы вначале все эти
варианты сопоставить между собой, учесть недостатки каждого и двигаться дальше. Иначе получится
еще одна "проблема", как это получилось с системой координат. (По Фасту, Демину, относительно
изб, по сетке топографической карты, с учетом магнитного склонения или без и т.д.) Все это уже
изрядно запутало сопоставление работ разных групп с их собственными привязками.
Поэтому надо вначале договориться об основных принципахтакого построения.
Что нужно, по-моему?
- Четко сформулировать цель составления электронного архива. (Что он будет
представлять из себя и что с ним можно будет делать).
- Определить принципы его разработки. (Это вопрос к программистам - как обеспечить
достижение цели).
- Составить систематизированный, иерархический список требуемых фондов, который нужно
будет последовательно наполнять.
- Уточнить объемы уже проведенных работ и сконцентрировать все в одном месте. (Зачем
еще и еще раз переводить на электронные носители уже неоднократно переведенное - те же работы
по очевидцам, вывалу, "мутантам" и т.д.).
- Перевести все частные каталоги в единую систему координат, чтобы не гадать о
"несовпадении" осей и масштабов.
Здесь тоже даны отрывочные положения, которые подлежат разбору, дополнениям и доводке. Но
без этого начального этапа - четкой формулировки цели и задач, боюсь, что много получится
пустой работы.
21 фев. 2002 г.
Во-первых, об электронном архиве. Дело архиважное. Все бумажные подлинники имеют
свойство портиться, теряться, расползаться и т.д. Все, что было у Николая в Томске - он передал
в Госархив. Там надежнее. Но надо с подлинников снять копии, перевести их в электронную форму и
стандартизировать. Под стандартизацией я подразумеваю перевод всех полевых материалов в единую
систему координат. Учитывая распространенность сейчас "Магеллана" и возможность все дальнейшие
привязки давать по нему, думаю, что и все старые системы координат следует привязать к нему.
Это уже требует создания двойной электронной копии подлинника. (Хотя, видимо, программными
методами все это можно объединить в один текст).
Затем, было бы очень важно каждую электронную копию подлинника сопроводить дополнительным
текстом автора, где он указывает на возможные погрешности в проведении работ и дает предельные
значения возможных ошибок. Не лишним было бы там же добавить соображения других исследователей
этого вопроса о возможных погрешностях.
Вот и получается, что каждый документ должен иметь минимум несколько пояснений, расшифровок,
уточнений. Вот основные из них:
- Электронная копия рукописного полевого журнала (со всеми помарками, правками,
ошибками и т.д.). Тут же указывается год и дата заполнения подлинника, его авторы и
руководитель направления. Это основной документ.
- Электронная копия машинописного варианта полевого журнала, в котором исправлены
ошибки (даже грамматические), уточнены цифры, даны современные привязки и т.д. Это исходный
материал для составления каталога или ведения фундаментальной работы.
- Описание методики работы, данное ее организатором (участником, руководителем,
продолжателем) с указанием возможных погрешностей и ошибок в работе.
- То же самое, но сделанное другими исследователями.
- Ссылка на каталог, в который включены материалы из полевых дневников данного
направления.
- Ссылки на работы, в которых были использованы эти материалы с указанием всех авторов
таких работ.
24 фев. 2002 г.
Вначале об электронном архиве. (Общие соображения)
Электронный архив нужно создавать с двумя подцелями: исторической и рабочей.
В историческом плане электронный архив должен сохранить все наработанное за долгие
годы ближним и дальним потомкам. Соответственно этому он создается по первоисточникам со всеми
их ошибками, личностной окраской, с множеством фотографий и т.д. Это сохраняемая
задублированная, но не распространяемая информация. Он должен быть доступен
ограниченному и четко обозначенному кругу лиц, по крайней мере, на ближайшие лет 50.
Вторая часть - рабочая. В ней не требуется хранить различные воспоминания,
личные дневники, не деловые фотографии, но ее нужно свести в систему единообразную по
всем направлениям. Рабочий архив тоже должен быть разделен на "открытую" и "закрытую" часть
. Первую мы размещаем для всеобщего пользования, вторую - только по нашему спецразрешению
(не исключаю, что часть этой информации можно будет "продавать").
Теперь о содержании. Каталог должен состоять из трех (а может быть и четырех)
подразделов или блоков.
- Копии первичных материалов. (Полевые дневники, планшеты, опросные листы и т.д. Сюда
же следует отнести ответы на запросы по разным организациям с копиями присланных материалов).
Этот блок архива можно рассматривать как часть исторического (В этом плане они идентичны).
- Упорядоченные первичные материалы - различные каталоги, таблицы лабораторных замеров.
Это те же первичные материалы, но систематизированные для удобства использования.
- Материалы предварительной обработки первичных материалов и каталогов. Ведь
значительная часть таких работ так и не дошла до публикации. А эти обобщения и наработки могут
быть интересными. (Но, вообще-то, может быть этот блок можно исключить и перейти к
завершающему; отчеты по темам мы обычно не писали).
- Архив публикаций. И собственных и всех других. Во-первых, списки, во-вторых, копии
подлинников публикаций, а в третьих, - и это самая трудоемкая часть работы - системы
классификации и система ссылок.
| |
 |
|
Валерий Зюков (Троицк)
ПРЕДЛОЖЕНИЯ ПО БАЗЕ
ДАННЫХ СООБЩЕНИЙ ОЧЕВИДЦЕВ
(Техническое задание для конструктора СУБД, переосмысленное
и переформулированное Е. Малиновским) |
1. Типизация сообщений. Все сообщения разбиваются на типы, в зависимости от характера
(например - анкета, газетное сообщение, опрос очевидца, письмо). В соответствии с типом
сообщения регистрируется дополнительная информация.
2. Для всех сообщений необходимо указывать источник, по которому цитируется сообщение.
Список источников необходимо оформить в виде отдельного справочника. Ссылка на источник должна
содержать способ поиска данного сообщения в источнике (например - рукопись такая-то, сообщение
номер такой-то). Справочник источников должен содержать общие сведения об источниках (например,
- библиографическую информацию).
3. Для сообщений необходимо фиксировать сведения об очевидце (если таковые имеются) - ФИО,
год рождения, место наблюдения, информацию об обстоятельствах опроса - место опроса, дату,
сведения об опросчиках.
4. Список мест опроса необходимо выделить в отдельный справочник, где необходимо фиксировать:
расстояние до эпицентра, направление на эпицентр и географические координаты.
5. Для тематизации сообщений необходимо сделать справочник "Тематический рубрикатор". Каждому
сообщению может быть присвоена связь с одной или несколькими тематическими группами, по
принципу ключевых слов. Должны быть созданы средства для проведения запросов по рубрикатору.
6. Необходимо обеспечить возможность поиска по любому параметру или группе параметров
кодификации. Как по заданию, так и по группе значений (например, диапазон углов на эпицентр).
7. В рамках системы должна быть реализована функция расчета вторичных параметров сообщения
(например, определения направления на заданную географическую точку).
Евгений Малиновский
ПРОЕКТ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
1. В рамках создаваемой программной среды выделяются три типа объектов базы данных. Объекты
всех типов имеют наименование и текстовой блок.
2. Объект "ссылка" содержит отсылку на внешний ресурс, книгу, статью, сайт и т.п. В "ссылке"
фиксируется библиографичекая информация, или же иная информация о местонахождении внешнего
ресурса. Эти объекты необходимы для описания электронного и бумажного архивов, а также внешних
информационных ресурсов - сайтов, книг в библиотеках и прочее.
3. Объект "выписка" содержит фрагмент текста какого-либо внешнего ресурса. Например, выписка
из статьи. Объект "ссылка" имеет связь с объектами "выписка" по принципу: одна "ссылка" - много
"выписок". Для фиксации месторасположения цитаты, или цитат в исходном тексте вводится
дополнительное поле.
4. Объект "карточка" содержит текстовой блок и наименование. Создан для фиксации информации,
не связанной непосредственно с внешним ресурсом. На карточке может быть фиксировано, например,
знание, полученное в результате анализа системы выписок и ресурсов. Возможно связывание объектов
"карточка" и объектов "выписка", "ссылка" по принципу: один - много.
5. Для организации аналитической работы над объектами, в среде данных выделяется блок
предикатов, построенный в виде системы иерархических списков. Например: прогноз - прогноз
научно-технический - прогноз развития энергетики. Система предикатов служит для маркировки всех
видов объектов. Каждый объект может иметь неограниченное число предикатов. Таким образом,
происходит классификация объектов базы по различным тематикам.
6. Основной инструмент анализа в программной среде - редактор запросов, в котором создаются
выражения для фильтрации объектов данных. В выражении могут участвовать: тип объекта, тип
внешнего ресурса для "ссылок" и "выписок" и предикаты, назначаемые объекту. Выражение для
фильтрации строится по принципу объединений и пересечений признаков.
7. Созданные в редакторе запросов выражения, обрабатываются процессором запросов и хранятся
в виде постоянных или временных списков. Для удобства работы возможно групповое назначение
предиката или набора предикатов для списка объектов.
8. Для обеспечения стабильности данных при групповой работе применяется система
разграничения прав доступа. Предикаты разделяются на общие, созданные администратором, и
приватные, созданные пользователями. Общие предикаты недоступны для редактирования
пользователям. Предикаты пользователей доступны в режиме редактирования автору и всем в режиме
чтения.
9. Для удобства работы возможно создание блока обмена данными между удаленными базами,
созданного по принципу экспорта - импорта.
Евгений Малиновский
ПРОЕКТ ОЦИФРОВКИ НАУЧНЫХ ПУБЛИКАЦИЙ
Цель проекта. Создание общедоступной электронной библиотеки
текстов научных публикаций по Тунгусской проблеме.
Текущие задачи. Оцифровка сборников "Проблема Тунгусского метеорита": выпуск 1
(1963 г.), выпуск 2 (1967 г.) и последующих, публиковавшихся под эгидой Института геологии
СОАН СССР.
Требуется помощь в распознавании отсканированных страниц в формате tif, а также -
последующей правке текста, ручном наборе формул и ретуши иллюстраций.
Порядок обработки исходных изображений. Изображения в формате tif, с названиями,
соответствующими номеру страницы, передаются участнику проекта по электронной почте порциями
(целая статья или ее часть). Изображение необходимо распознать с помощью программы FineReader.
Распознанный текст содержит ошибки, которые необходимо исправить, лучше в самом FineReader'е,
либо в текстовом редакторе. Распознанный текст необходимо экспортировать в Word и сохранить там
как документ Word (не RTF). Часть статей содержит формулы разной сложности, их необходимо
набирать вручную в Word'е. Набранные формулы требуется сверить с оригинальной сканированной
страницей. Кроме того, некоторые статьи содержат графики, карты, диаграммы и иные изображения,
прямо связанные с текстом статьи. Их необходимо вырезать из исходного tif'а, например в
Photoshope, чистить и возможно немного поворачивать. При этом, нельзя менять, уменьшать
картинки. Отретушированные изображения не следует вставлять в Word, а прикладывать отдельно,
называя файл порядковым номером рисунка.
Участие в проекте. Для участия в проекте необходимо направить заявку Евгению
Малиновскому по адресу mev7@rambler.ru, с указанием
варианта участия.
Варианты участия - распознавание текста без формул, распознавание текста с
формулами, распознавание текста и ретушь рисунков.
КОНЦЕПТУАЛЬНЫЕ ПИСЬМА ПЛЕХАНОВА, КАСАЮЩИЕСЯ ФОРМИРОВАНИЯ ЭЛЕКТРОННОГО
АРХИВА
ПРЕДЛОЖЕНИЯ ПО БАЗЕ ДАННЫХ СООБЩЕНИЙ ОЧЕВИДЦЕВ
ПРОЕКТ СИСТЕМЫ УПРАВЛЕНИЯ ДАННЫМИ
ПРОЕКТ ОЦИФРОВКИ НАУЧНЫХ ПУБЛИКАЦИЙ