此页内容

大数与海量数据

yirufeng

335字约1分钟

2024-05-13

大数相加（代码题）

布隆过滤器讲一下

海量数据处理：1T大文件，每一行是一个单词，请在4G内存条件下，统计出频次最高的10个单词

海量日志查询某一段时间内的记录

算法（口述）：一千万个0-100之间的浮点数，找出前100个最大的，不考虑空间复杂度

算法题：一千万条数据找最大的前 100 个数据（每个数据都是 0-100 的浮点数），最差时间复杂度以及优化

海量数字，范围都是 1～10000，怎么排序？

（计数排序）

算法题：千万级别的数据量，实现队列 FIFO，如何设计数据结构节省内存空间（数据+ 链表）

提取两个海量 url 数据中的相同值，不准用 Hash 分治。

一个上 T 的文本文件，里面很多字符串并且用空格分隔，找到不同的字符串数量

100M 的内存，100G 的文件（每行只有一个单词），统计频率最高的 20 个单

假如有一个文件，文件里有100万条url，请给出方法统计出现次数最高的前100条（思路：100组，每组前100条拿出来，归并）