Разбор одного терабайта текста и эффективный подсчет количества вхождений каждого слова

недавно я наткнулся на вопрос интервью, чтобы создать алгоритм на любом языке, который должен делать следующее

Читать 1 терабайт контента

сделать подсчет для каждого повторяющегося слова в этом содержании

список топ-10 наиболее часто встречающихся слов

не могли бы вы дать мне знать, как лучше всего создать алгоритм для этого?

Edit:

хорошо, допустим, содержание на английском языке. Как мы можем найти 10 лучших слов, которые встречаются наиболее часто в этом содержании? Мое другое сомнение заключается в том, что если они намеренно дают уникальные данные, то наш буфер истечет с переполнением размера кучи. Мы должны справиться и с этим.

504 0

c#algorithm

Comments

Ничего не найдено.