Web クローラ実装パターン集

今まで様々な Web サイトなど情報を集めるためにクローラを作った時のノウハウ言語は主に JavaScript（NodeJS)

実装パターン

後ろに行くほど高度・重実装

サイトが提供している RSS にアクセスして情報を取得する. 実装方法としては rss-parser に URL から解析してくれるライブラリあるので，簡単に実装できる．

HTML を取得しその HTML を解析する JSDOM を使えば URL 指定で取得から解析まで１つのライブラリで行える HTML の解析は XPATH や

axios などで HTML を取得して，その結果を jsdom に取り込んで解析する JSDOM のライブラリではできない文字コードの変換など取得に細かく制御できる

axios など HTTP リクエストからデータ取得する取得先の API は公開された API だけでなく，ブラウザの開発者モードで通信見て API 探す場合もあるたいてい JSON のレスポンスのため，解析は HTML より容易

pupetter や playwright などヘッドレスブラウザを制御するライブラリ使ってブラウザ表示を再現してページ取得する．ブラウザの操作再現できるのでログインやボタン操作もできるこれらのライブラリで要素の指定が JSDOM などの XPATH と少し異なる点に注意