2006/08/24

hetrixをビルド

heritrixをビルドしてみる。 CVSのHEADからソースをとってきて、mavenでビルド maven 1.0.2とjava5の組み合わせのようだ。 ビルドの前に、DocBookをプロセスするプラグインが必要 maven plugin:download -DgroupId=maven-plugins -DartifactId=maven-sdocbook-plugin -Dversion=1.4.1 それから、jspcしているのですが、これがどうもconditionalなようでうまく動かなかったのでコメントアウトしました。 maven dist

2006/08/15

Awstats

  • rpmでインストール
  • apacheでアクセス制限
  • <LocationMatch "^/awstats">
    Order deny,allow
    Deny from all
    #Allow from all
    Allow from localhost
    Allow from 10.
    Allow from housekeeper.atl-systems.co.jp
    </LocationMatch>
    
  • logrotate設定
  • /var/log/httpd/*log {
    missingok
    notifempty
    sharedscripts
    prerotate
    /usr/local/awstats/wwwroot/cgi-bin/awstats.pl -update -config=CONFIG_DOMAIN_NAME
    endscript
    postrotate
    /bin/kill -HUP `cat /var/run/httpd.pid 2>/dev/null` 2> /dev/null || true
    endscript
    }
    
  • 文字化け対策
  • コチラからパッチをダウンロードしてあてます

2006/08/10

Pure Java Crawler

評価したいポイントは、CSS内の@importやurl、JavaScript内のURLをパースできるか?

  • jspider
    • アーキテクチャ、設計が綺麗で、拡張性が高い。
    • CSS、JavaScriptをパースしない
  • sperosuite
    • ミラーサイトを作るアプリケーション
    • CSSをパースする
    • 検索エンジンを内蔵
    • ミラーする際にURLを書き換え、metaタグを挟み込む
  • heritrix
    • Requirements Java 5.0+
    • Finds URLs to resources( background-images,bullets) in css
    • 開発盛ん(2006/5/8)
  • WebSPHINX
    • Apache-Style Licence
    • latest release v0.5 2002/8/8
  • NUTCH
    • Web-Search Software
    • Lucene 内蔵
    • WebCrawler内蔵
    • でかい、66M
    • 開発は継続中
  • WebLech
    • latest release 0.0.4 2004/7/12
  • Arale
    • 2001年作
  • HyperSpider
    • latest release 2003/2/9
    • リンクをたどりWebサイトの構造をグラフ化する
    • Graphviz DOT形式で出力可能
  • Arachnid
    • 未調査
  • spindle
    • GPL
  • Spider
    • Version 0.1.0
  • LARM
    • Lucene Advanced Retrieval Machine
  • Metis
    • latest release 2003/3/22
  • Acme.Spider
    • 未調査

2006/08/06

San Franciso International Airport

San Franciso International Airportにて T-mobileの仕組み? 1.暗号化なしの無線LANに繋ぐ 2.特定のホストだけに接続可能 3.T-mobileのWebサイト経由で認証を受ける 4.Internetにつながる 翌日になるとサイド認証を受ける必要がある。たぶん。DHCPのリリースがそんなもんに設定してあるとおもう。 もらえるIPは10.**だったので、ローカルIP 認証が通るまえはどのサイトにアクセスしてもプロキシサーバで、T-mobileのログインページにリダイレクト。認証通るとたぶん、MACアドレスが登録される?DHCPで配られているこのIPがグリーンになり、プロキシでリダイレクトされなくなる。 泊まったホテルでも同様の仕組みだった。 こちらはkyberという会社。