Разбор одного терабайта текста и эффективный подсчет количества вхождений каждого слова
недавно я наткнулся на вопрос интервью, чтобы создать алгоритм на любом языке, который должен делать следующее
- Читать 1 терабайт контента
- сделать подсчет для каждого повторяющегося слова в этом содержании
- список топ-10 наиболее часто встречающихся слов
не могли бы вы дать мне знать, как лучше всего создать алгоритм для этого?
Edit:
хорошо, допустим, содержание на английском языке. Как мы можем найти 10 лучших слов, которые встречаются наиболее часто в этом содержании? Мое другое сомнение заключается в том, что если они намеренно дают уникальные данные, то наш буфер истечет с переполнением размера кучи. Мы должны справиться и с этим.
Comments