segunda-feira, 15 de setembro de 2014

Empresa de TI explica desafio de digitalizar a Biblioteca do Vaticano


(foto: Michal Osmenda / Wikimedia Commons)

Gustavo Gusmão

A empresa japonesa NTT Data começou, entre março e abril deste ano, um longo processo para digitalizar todo o acervo da Biblioteca Apostólica do Vaticano. Ao todo, são 82 mil manuscritos, totalizando mais de 41 milhões de páginas. São números que já dão uma ideia da dimensão do trabalho que os 50 envolvidos enfrentam – e que fica mais complicado se considerarmos os diferentes tipos de documentos guardados no local e a alta exigência de espaço para armazenar tudo.

“Há manuscritos muito frágeis, que precisam de cuidados especiais no manuseio”, explicou a INFO Dalton Dallavecchia, executivo da NTT Data no Brasil. Conforme descreveu o brasileiro, alguns dos documentos não podem ser muito abertos, resistindo no máximo a um ângulo de aberutra de 100 graus. “Usamos suportes especiais de livros nesses casos, além de um software que corrige as imagens que não foram capturadas em um ângulo raso”, completa.

A biblioteca, inaugurada ainda em 1475, ainda conta com algumas obras orientais escritas em rolos enormes, que precisam ser escaneadas aos poucos, em partes separadas. O trabalho todo gera vários pedaços, que depois são unificados com a ajuda de ferramentas dos softwares utilizados no processo de virtualização.

Armazenamento e big data – Para a primeira fase da iniciativa, uma pequena parcela do acervo será escaneada. Mas mesmo que não represente muito, serão necessários 3 Petabytes para armazená-la. E segundo Dallavecchia, o conjunto todo de manuscritos, que deve ser totalmente escaneado em quatro anos, exigirá pelo menos 20 PB de capacidade de armazenamento – ou 20 milhões de GB, para deixar mais claro.

Os arquivos ficam em servidores baseados na tecnologia Isilon, da norte-americana EMC, voltada para guardar documentos por um longo período. O uso da plataforma também está relacionado à ideia da NTT Data e do Vaticano de disponibilizar o acervo digital a pesquisadores e internautas pelo mundo: ela é voltada para gerenciamento de big data, e caracterizada como uma solução escalável (scale-out). Ou seja, conforme a demanda de acessos ao grande volume de dados da biblioteca cresce, mais nós (nodes) são adicionados, mantendo o sistema estável.

Digitalização – O número aparentemente exagerado de Petabytes, aliás, tem muito a ver com a qualidade das imagens. O executivo da NTT Data explica que o aparelho usado na digitalização “captura a imagem dos manuscritos com resolução óptica de 400 dpi, usando diferentes tipos de fontes de luz para melhorar a qualidade”.

É uma ação complicada, que envolve por vezes até uma armação para segurar as obras apenas parcialmente abertas – mas que leva só “dois minutos para digitalizar uma página do tamanho de uma folha A4”. No fim das contas, cada scanner é capaz de capturar pelo menos 150 volumes em um ano.

Se quiser acompanhar o progresso do trabalho, dá para checar algumas das páginas digitalizadas na página da Biblioteca Apostólica do Vaticano. Por ora, foram digitalizados 4.161 volumes dos 82 mil. Para ver alguns deles, é só clicar no respectivo livro aberto e depois na folha que aparecerá à direita.

Nenhum comentário: