沒有點美元或人民幣是不可能的撒 爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。 对于中文网页,要正确的读出 encode 的方式
可以从网页头部,HTTP header 读出,然后 decode 一下 另外,这样做最大的问题在于截图如何经济有效的存贮和调用
毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型 nutch 开源的 一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。
页:
1
[2]