スポンサーサイト

  • --/--/--(--) --:--:--

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

まさかの朝日がGJ。#LibraHack

  • 2010/08/22(日) 23:16:58

まさかあの朝日がちゃんとやるとは思わなかった。

#LibraHack事件についての朝日新聞の記事
http://www.asahi.com/national/update/0820/NGY201008200021.html
http://www.asahi.com/national/update/0821/NGY201008210001.html

Togetterでの朝日新聞記者への質問とまとめ
http://togetter.com/li/43777?utm_source=twitterfeed&utm_medium=twitter

事件のまとめサイト
http://www26.atwiki.jp/librahack/

MikuMikuDance for XNAとか、新作ゲームとかについての話もあるけど
とりあえず、今回はこの事件について思うところを書こうと思います。

岡崎市立図書館の事件について、自分はすごーく関心を持ってます。
何でかというと……

俺もクローラーを作ってデータ収集してたから。

クローラー対象は件の図書館サイトじゃない、GIS情報サイトだったので
全部が全部同じではないのですが

下手したら、俺捕まってたってことだよね……

情報収集してよくよく確かめてみたら
・1秒に1回程度のアクセス(俺も同じ程度で回してた)
・robot.txtは無視(収集する場所決まってるのに見に行かねーよ。他理由は後述)
・User-Agentにメルアドは入れてない。(何それ食えるの?)
とか、似たような状態だし……

違うところといえば
・収集対象が落ちなかった
・収集場所が大学だったため、逆探されたら明らかに研究目的と分かるようになっていた
ぐらいでしょうか。

この事件に対する技術的、法的考察はエース級のプロの方々が議論されているので、その辺りはGoogle先生に聞いて探してください。
なので、ここでは個人的感想を述べます。

何でこんなことで捕まるんや

簡易クローラーを作ること自体は大したことじゃない
C#やPythonにはウェブページを取得するライブラリがあるし
取得したページを正規表現かけて解析したらリンクなんてすぐ辿れる
はっきり言って、3日もあれば、ちょっとプログラム出来る人ならすぐ開発できる
自分は情報の学生でも何でもないけど作ってるぜ。

自分は研究目的で、数十万単位のページを取得する必要が生じたので(研究に利用可能な宝の山)
急遽簡易クローラー作成→休みの間にしっかり働けよ~という意図で作りました。
まぁ、収集するページは決まってたからrobot.txtなんて気にもかけなかったし
User-Agentとかを気にしている余裕もない(緊急の使い捨てクローラーですが、何か)
そもそも、研究は大気汚染対策だから、クローラーがどうすごかろうが研究には関係ない。
単にダウンロードツールとして作っただけ。
相手を停止する意図もないし、妨害する意図もない。

……で、今回の事件で運が悪いと逮捕される危険性があるってことになっているわけです。

どうしてこうなった。

直感だけど、俺と似たようなことしてる人結構いるとおもうぜ。(まぁ、技術的にたいしたことしてないし)
で、ちゃんとした研究目的でも捕まえるのかなぁ?

正直言うと
スーパーな技術力で念力でバッグとかしてるプロの方々もいれば
なんかDBのセッションの切り方が分かんなくて(mallocしてfreeわかんないとかと同等だよね?)不具合放置(?)しているプロの方々もいるとか
この業界どーなってんねん。

……俺、この業界(?)に新卒で入ることなったんだけど
大丈夫かな……

そういう意味で今回の朝日新聞記者の行動は
自らの責任(報道による名誉毀損)に対してケジメをつけるという意味も含めて賞賛すべきことだと思います。
……普段の記事は俺の考え方とはちょっと合わないけど。正直驚いている。

記者さんにはこの問題に付いて、この調子でもっと踏み込んでもらいたいですね。

記者さん。GJ!

スポンサーサイト

この記事に対するトラックバック

この記事のトラックバックURL

この記事にトラックバックする(FC2ブログユーザー)

この記事に対するコメント

コメント投稿

管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。