provintiale: (олдмен)
[personal profile] provintiale
Американский исследователь создает гигантскую базу данных из 12 миллионов исторических изображений, предоставляя возможность пользоваться ей по своему усмотрению любому желающему.


Результатом амбициозного проекта стало многократное увеличение числа котиков в интернете

К этому моменту Калев Литару выложил 2,6 млн изображений  в социальную сеть Flickr. Благодаря автоматически проставляемым ярлыкам база данных позволяет проводить поиск по всем картинкам.
Фотографии и рисунки взяты из более чем 600 млн книжных страниц, отсканированных в библиотеках организацией Internet Archive.
До сего дня получить доступ к подобным изображениям было довольно затруднительно.

Как говорит Литару, до сих процесс оцифровывания концентрировался в основном на текстах и игнорировал изображения.
"Все эти годы все библиотеки оцифровывали свои книги, однако их выкладывали в формате PDF или текстовых файлов с возможностью поиска по ним, - рассказал он в интервью Би-би-си. - Они сосредотачивались на книгах как на массивах слов. Мы же видоизменяем этот подход".

"Погружаясь на полтысячелетия в историю, удивительно наблюдать весь набор визуальных образов и как изображение предметов менялось с течением времени", - признается ученый.

По словам Литару, большинство иллюстраций, сохранившихся в книгах, уже не найти ни в одной галерее в мире, поскольку оригиналы давным-давно утрачены.
Выкладываемые на Flickr изображения охватывают период с 1500 до 1922 года, то есть до времени, с которого начинаются ограничения в связи с авторскими правами.

Ускоренный процесс

Калев Литару начал работу над своим проектом во время изучения технологии коммуникаций в Джорджтаунском университете в Вашингтоне по программе, спонсируемой интернет-гигантом Yahoo, которому принадлежит фотохостинг Flickr.


Посетители сайта могут свободно скачивать изображения и использовать их по своему усмотрению совершенно бесплатно

Для достижения своей цели Литару сам разработал программное обеспечение, чтобы видоизменить тот способ, которым книги оцифровывались первоначально.

Internet Archive ранее пользовалась программой оптического распознавания символов для анализа каждой из 600 млн отсканированных книжных страниц - чтобы перевести изображение каждого слова в электронный текст, пригодный для поисковых систем.

В качестве составной части процесса программа определяла, какая часть страницы содержала изображение, для того чтобы пропустить ее.

Написанный Литару программный код использовал эту информацию, повторно обращаясь к оригинальным сканам, - на этот раз уже для того, чтобы выделить ранее отвергнутые фрагменты и сохранить их как картинку в формате JPG.

Программа также автоматически копировала подпись, сопровождающую каждое изображение, если она была, а также абзацы книжного текста, непосредственно предшествующие и идущие сразу вслед за иллюстрацией.
Каждый сформированный таким образом JPG-файл с сопутствующим текстом выкладывался после этого на отдельную страницу во Flickr, давая возможность пользователям вволю копаться в гигантском каталоге при помощи поиска по сайту.

По словам Литару, путешествие сквозь старинные изображения оставляет незабываемые ощущения: "Это одно из прекраснейших занятий. Наберите, например, в поиске слово "телефон", и вы увидите, что на самых первых картинках изображены бизнесмены, в большинстве своем это мужчины. Затем вы увидите, как постепенно все больше превращается в устройство для поддержания связи между близкими людьми".


Еще один пример такого развития, по словам ученого, - это железная дорога. "Самые первые образы, связанные с ней, повествуют об инновациях и прогрессе, который должен был изменить мир. Затем вы наблюдаете ее эволюцию, пока она не превращается в часть нашей повседневной жизни".

Вселенная изображений

Архивные работники говорят, что весьма впечатлены этим проектом.
"Обнаружение картинок внутри текста и снабжение тегами обширных коллекций изображений - невероятно трудное дело, - признается старший архивариус Университета Кембриджа доктор Алисон Перн. - Это очень умный способ обеспечить одновременно и количество, и возможность для поиска. И замечательно, что это доступно бесплатно и для для всех".

Оцифрованные изображения заканчиваются 1923 годом: все, что опубликовано раньше, не подпадает под закон об авторских правах

В амбициозных планах Литару - связать свой проект с самой известной энциклопедией в интернете. Он намерен заняться этим в следующем году, как только завершит работу над проектом. По его словам, он хотел бы, чтобы этими картинками были проиллюстрированы статьи в Википедии.

"Возьмите наугад любую статью об историческом событии, и есть большие шансы, что вы найдете в этой коллекции картинку, которая так или иначе связана с этим событием или с местом, где оно произошло, - говорит исследователь. - Возможности обогатить их таким образом были бы колоссальными".

Он также собирается предоставить исходный код своей программы для пользования всем желающим.

"Любая библиотека могла бы воспроизвести этот процесс у себя, - объясняет он. - На самом деле, я очень надеюсь, что библиотеки по всему миру воспользуются подобным процессом для своих оцифрованных книг, чтобы неуклонно расширять эту вселенную изображений".

Источник


Date: 2014-08-30 04:38 am (UTC)
From: [identity profile] baglyot.livejournal.com
Это очень круто)

Date: 2014-08-30 11:58 am (UTC)
From: [identity profile] provintiale.livejournal.com
В каменты приглашаются кремлеботы с рассказами про ужасы бездуховного и алчного запада.))

Date: 2014-08-30 04:03 pm (UTC)
From: [identity profile] baglyot.livejournal.com
они сюда не зайдт(((

Date: 2014-08-30 08:10 am (UTC)
From: [identity profile] kuda-morgalo.livejournal.com
Очень хороший проект. Респект чуваку. З.Ы. если я правильно понимаю, основная приколюха в том, что картинки древние и соответственно они бесплатны к пользованию. Сроки прав на них все вышли. Каждый может их постить как хочет. Так ведь?
Edited Date: 2014-08-30 08:24 am (UTC)

Date: 2014-08-30 11:56 am (UTC)
From: [identity profile] provintiale.livejournal.com
Именно так. Я и ссылку на фликр поставил. Пользуйтесь на здоровье!)

Date: 2014-08-30 11:56 am (UTC)
From: [identity profile] kuda-morgalo.livejournal.com
уже вовсю)

Date: 2014-09-03 08:56 am (UTC)
From: [identity profile] tsarev-alexey.livejournal.com
Акунин по-любому будет там зависать.)

Profile

provintiale: (Default)
provintiale

January 2026

S M T W T F S
     123
45 678910
1112131415 16 17
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 21st, 2026 09:54 pm
Powered by Dreamwidth Studios