2008年4月23日水曜日

WEBスクレイピング

scraping》
  • WEB1.0とかWEB2.0とかそんな言い方は嫌いなのだけれど
  • セマンティクスWEBというのはつまり書式に従ってすべて出力せよという話で、そもそもWEBの主要ツールであるHTMLの性質とは相容れないものである気がするので、いまにセマンティクスWEBの時代がくるさあ、なんて待っててもまあ来ないような気がします。
  • ほらテーブルタグでデザイン凝りたいじゃないですか。フラッシュでかっこよくデータ見せたいじゃないですか。
  • WEBサービスの口を用意してそこからセマンティクスしようぜという話。単に作る人間の手間を増やしてるだけだと思う。
  • いまあるものの意味を切り出すという意味でWEBスクレイピング技術は面白い
  • TidyとかでXHTMLに還元したHTMLをDOMでXPathで調べて正規表現でデータ切り出して、使えばいいじゃん、そんなお話。
  • まあ概念はわかるけどいろいろ面倒だよねえ。ページの構成は結局人が認識しなければいけないわけですし。この二番目のテーブルのー。三列目と、斜線引いてあるのはのぞいてー。
  • RubyとかPerlとか情報が多いが、Java屋さんなのでJavaで調べる。以前JTidyでタグリムーバは作ったからまあ似たようなものだろう。
  • いいことばかりが目に付くが逆にせっかく我々の書いたものを盗用して体裁を変えて出すとはけしからんというやからはやはり居るらしい。
    • GoogleとかYahooでもこの手の行為は禁止してる。でAPI使っても画面で見る検索結果とちがうんだそうですよ
    • ECサイトとかでもあまりよろこばれんでしょう
  • しかし、なんか、つきつめると泥沼っぽいよなあ、この技術。他人の作ったページを解析してデータを作るための技術。つまりFAXで送られてきた伝票をいかにはやくExcelに入力すればよいかとかそんなのに似てる。
  • 列の順序は不定期にいれかえます。そもそもAJAXですからHTML読んでもデータなんざはいってないよとかそんな感じでもうぐにゃぐにゃに。 「ホームページリニューアルしました!」で打撃を受ける仕事。
  • 仕事のモチベーションを高めようと調べながら書いてみたが、なんか嫌になってきた
  • でも管理職受けはするよねーこういう技術ってー

0 件のコメント:

コメントを投稿