海外・国内のベンチャー系ニュースサイト | TECHABLE

TECHABLE

Tech プログラミングなしでWebサイトからデータを抽出できる「Parsers」

Tech

プログラミングなしでWebサイトからデータを抽出できる「Parsers」

SHARE ON

このエントリーをはてなブックマークに追加
ニュースサイトやショッピングサイトから、タイトルや価格など特定の情報だけを得たいことがあるだろう。「Parsers」は、Webサイトからデータを抽出するためのChrome拡張機能だ。

多くのプログラミング言語にも同様のツールが用意されているし、ほかにも同じことができるソフトはあるがParsersの特徴は簡単に要素を指定できる点だ。また、無料アカウントで、1サイトにつき1000ページぶんの情報が取得できるようだ。

・選択するだけで要素を取得

Parsersを利用すれば、Webサイトの指定した情報、たとえばタイトル、著者、サムネイ、価格…といった情報が個別に取得できる。

情報を取得するには、情報を取得したいサイトの任意の記事/製品ページ上で、Chrome拡張機能を立ち上げる。そこで取得したい情報を選択すると自動でフィールドに表示される。

ほしい情報のぶんだけフィールドを追加していき、「Start」を押すとスクレイピングが始まる。

リミット数までのページでスクレイピングが完了すると、フィールドごとにデータが閲覧できてExcel形式やCSV形式でダウンロードも可能だ。

・登録なしでも利用可能

登録なしで1サイトにつき10ページぶん、無料登録で1000ページぶんの情報が取得できるようだが、実際スクレイピングしてみるとサービスが混み合っているのかとても動作が遅く、完了しないこともあった。

そのためせっかちな方は、要素を細かく指定していく必要はあれど、「Data Miner」などのほかソフトを活用するのがよいだろう。

また、スクレイピングは対象サイトのサーバーに負荷をかけるものなので、1000ページをいっきにおこなうのはやりすぎ感もある。

なお、スクレイピングを禁止しているサイトもあるので、robots.txtなどで確認してからの活用をおすすめしたい。

Parsers

関連記事

Techableの最新情報をお届けします。
前の記事
次の記事

#関連キーワード


WHAT'S NEW

最新情報