2006/08/10

Pure Java Crawler

評価したいポイントは、CSS内の@importやurl、JavaScript内のURLをパースできるか?

  • jspider
    • アーキテクチャ、設計が綺麗で、拡張性が高い。
    • CSS、JavaScriptをパースしない
  • sperosuite
    • ミラーサイトを作るアプリケーション
    • CSSをパースする
    • 検索エンジンを内蔵
    • ミラーする際にURLを書き換え、metaタグを挟み込む
  • heritrix
    • Requirements Java 5.0+
    • Finds URLs to resources( background-images,bullets) in css
    • 開発盛ん(2006/5/8)
  • WebSPHINX
    • Apache-Style Licence
    • latest release v0.5 2002/8/8
  • NUTCH
    • Web-Search Software
    • Lucene 内蔵
    • WebCrawler内蔵
    • でかい、66M
    • 開発は継続中
  • WebLech
    • latest release 0.0.4 2004/7/12
  • Arale
    • 2001年作
  • HyperSpider
    • latest release 2003/2/9
    • リンクをたどりWebサイトの構造をグラフ化する
    • Graphviz DOT形式で出力可能
  • Arachnid
    • 未調査
  • spindle
    • GPL
  • Spider
    • Version 0.1.0
  • LARM
    • Lucene Advanced Retrieval Machine
  • Metis
    • latest release 2003/3/22
  • Acme.Spider
    • 未調査
コメントを投稿