Node.jsで手軽にwebスクレイピングできるcherrio-httpscliというモジュールがあると知り、気になったので試してみました。
使い方自体はすごく簡単だったのでこのブログに投稿された記事の一覧を取得してみました。
fetch(url[, get-param, encode, callback])で検索したいURLやパラメータ、エンコーディング指定ができます。以下の例では、エンコーディングは指定していないので、自動判定になります。
1 2 3 4 5 6 7 8 9 |
var client = require('cheerio-httpscli'); client.fetch('https://prokatsu.com/', {}, function(err, $, res, body){ $('.kanren-t').each(function(id){ var str = $(this).text(); str=str.replace(/\s+/g, ""); console.log(str); }); }); |
以下のように表示されます。