["首页","博客标签","我","开源","深度学习","机器学习","自然语言","爬虫","编程","开发语言","前端开发","生活","论文","关于me"]

关于心中一个database的想法

作者: IntoHole | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.buyiker.com/2016/02/29/mapreduce-db-design.html

一些想法

hadoop 集群数据库思想 ——-

对所有数据按照第一列数据，进行全局排序（mapreduce）

大数据全量排序实现思路

 对数据全量扫描，随机抽取链接（每n条抽取一条），得到一个索引A
将索引A按照从大大小排序
 mapreduce程序，读入索引A，将所有数据按照索引文件进行分化（二分法），找到对应格子号，格子号\t数据输出到reduce里面
 reduce是有序的文件
 对reduce进行首尾（可以多个位置），选出索引文件B（最终的索引文件），mapreuce读入数据/单机读入，可以读取指定part数据了

关于心中一个database的想法

一些想法

相关内容