熬夜

我经常熬到很晚才睡,因为有太多有意思的事情可以做了,不知不觉就晚了。

但昨晚却是为了“正经事”。

知乎整顿,肛锯被永久禁言了。前天才在这里提到了他,我是不是有点乌鸦嘴。。。

回答还是可以看,但谁知道哪天会不会被全部删掉呢(其实我不清楚现在的是已经过滤过的还是尚未过滤)。于是,我要把它爬下来!

当时已经接近11点。我想用爬虫,然而我并不熟练,而且知乎的登录似乎有点麻烦(顺便吐槽,github上居然有脚本用神经网络解决图片验证码的问题,我了个去。。)。不过既然只是抓一个人的回答,那好办,土人自有土办法。

就是存网页。

打开他的回答,在Mac上按Fn + rightarrow 滚到底部,然后每个3行或以上并且有省略号的文章点开“阅读全文”。一直到顶。然后回到底部,按Command+S存起来,文件名用当前第几页的数字。这个方法是手动存网页最快的。从底部开始是因为,如果从顶部开始,点“阅读全文”以后想点下一篇,鼠标就要经过刚点过的这篇“全文”,浪费时间。从底部开始就避开了这个问题。3行以上才点开“阅读全文”,是因为3行以下的不是节选,而且3行以下鼠标较难命中。最后回到底部,是因为页面太多,会不记得当前是第几页,所以要看一下。存完以后可以直接在底下点下一页,时间没有亏损。

这样一页大概是20秒多一点。11点多开工,1个小时可以存160页,休息几分钟继续。越夜速度自然是越慢了。本来打算弄好再睡觉,但到2点多的时候实在太困顶不住,于是在360页的地方停下,本想稍微睡一会儿,但其实怎么可能。一睡就到早上8点多。起来继续直到存完458页。

这个故事告诉我们,不会爬虫是多么浪费生命的事情。

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

w

連結到 %s

%d 位部落客按了讚: