Archive for 九月, 2013

http://www.oracle.com/technetwork/server-storage/linux/downloads/rhel5-084877.html#oracleasm_rhel5_amd64

Oracle ASMLib Downloads for Red Hat Enterprise Linux Server 5

Note:  All ASMLib installations require the oracleasmlib and oracleasm-support packages appropriate for their machine. The driver packages are named after the kernel they support.  Run the “uname -r” command on your machine to determine your kernel version.  The corresponding package has the name oracleasm-<kernel_version>.Also, see the release notesJump to:

 

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。

爬虫框架

整个框架应该包含以下部分:资源管理、反监控管理、抓取管理、监控管理。

看一下整个框架的架构图:

社会化海量数据抓取组件图

  • 资源管理指网站分类体系、网站、网站访问url等基本资源的管理维护;
  • 反监控管理指被访问网站(特别是社会化媒体)会禁止爬虫访问,怎么让他们不能监控到我们的访问时爬虫软件,这就是反监控机制了; (more…)