互联网大数据采集方案 - :::互联网信息技术研究中心:::

Archive for the ‘互联网大数据采集方案’ Category

九月 6th, 2013

海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。

爬虫框架

整个框架应该包含以下部分：资源管理、反监控管理、抓取管理、监控管理。

看一下整个框架的架构图：

社会化海量数据抓取组件图

资源管理指网站分类体系、网站、网站访问url等基本资源的管理维护；
反监控管理指被访问网站（特别是社会化媒体）会禁止爬虫访问，怎么让他们不能监控到我们的访问时爬虫软件，这就是反监控机制了； (more…)

三月 18th, 2011

今天无意中蹦出来一个问题，这硬盘的最大容量单位是多少呢？
查了一下，硬盘容量单位换算
1B [Byte] = 8bits字节
1KB [Kilobyte] =1024B
1MB [Megabyte] =1024KB
1GB [Gigabyte] =1024MB
1TB [Terabyte] =1024GB
1PB [Petabyte] =1024TB
1EB [Exabyte] =1024PB
1ZB [Zettabyte] =1024EB
1YB [Yottabyte] =1024ZB

想想要是给我一块1YB的硬盘我该拿它放些什么呢？
就算我每秒钟都在往里面存储数据，我估计这一辈子也存储不满

现在假设我能活到100岁还剩80年
80年*365天*24时*60分*60秒=2,522,880,000秒
1YB硬盘=1,125,899,906,842,627GB
也就是说我每秒要往硬盘里面写入446,275GB的数据，还是在不间断的情况下，
我才能刚好在100岁挂掉的那天把这块1YB的硬盘填满。
这1YB是不是就是传说中的人脑容量？

一	二	三	四	五	六	日
« 10月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

:::互联网信息技术研究中心:::

九月 6th, 2013

海量数据采集爬虫框架搭建

爬虫框架

三月 18th, 2011

硬盘容量单位换算

日历

分类目录

最新文章

友情链接

分类目录

最新文章