クローリングシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になります。なお、公共図書館におけるクローリングシステムの開発は、全国初の取り組みとのことです。
45万件ものPDFを自動で収集
静岡県立中央図書館らが開発したクローリングシステムは、これまで収集が難しかったとされる、静岡県内の自治体Webサイトのドメイン内に格納されているPDFを自動収集するというものです。収集したたPDFの数は45万5133件。収集範囲はドメイン以下5階層目までですが、5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば、収集範囲の対象階層外であっても収集します。
収集したPDFはリネームし、Googleドライブで収集した日付ごとに、収集元のドメインと同じディレクトリ構造(Webサイトの「トップページ」「コンテンツページ」などのつながりや構造)で保存。また、過去の複数の時点のデータを保管する「世代管理」もおこなっているとのことです。
過去には貸出カードのスマートフォン表示も
今回のクローリングシステムの開発は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環です。静岡県立中央図書館は、図書館DX実証実験の第1弾として、2021年9月から貸出カードのスマートフォン表示を開始しました。
スマートフォンの画面が貸出カードの代わりになるため、貸出カードを持ち歩かなくても、図書館の資料を借りることができます。
続く第2弾では静岡県の電子申請サービス「ふじのくに電子申請サービス」を用いて利用者登録を可能とする「利用者登録等Web申込」、第3弾では株式会社紀伊國屋書店の電子書籍サービス「KinoDen」を活用して電子書籍を提供する「電子図書館」を展開しました。
そしてこのたび、Geolocation Technology社とともにクローリングシステムを開発。今後は、収集したPDFをもとにしたサービスの可能性を検証していく方針です。
PR TIMES(1)(2)
静岡県立中央図書館「【事前告知】図書館DX実証実験について 第2弾利用者登録等Web申込・第3弾電子図書館」
(文・Haruka Isobe)