Разбор одного терабайта текста и эффективный подсчет количества вхождений каждого слова



недавно я наткнулся на вопрос интервью, чтобы создать алгоритм на любом языке, который должен делать следующее




  1. Читать 1 терабайт контента

  2. сделать подсчет для каждого повторяющегося слова в этом содержании

  3. список топ-10 наиболее часто встречающихся слов


не могли бы вы дать мне знать, как лучше всего создать алгоритм для этого?



Edit:



хорошо, допустим, содержание на английском языке. Как мы можем найти 10 лучших слов, которые встречаются наиболее часто в этом содержании? Мое другое сомнение заключается в том, что если они намеренно дают уникальные данные, то наш буфер истечет с переполнением размера кучи. Мы должны справиться и с этим.

485   0  

Comments

    Ничего не найдено.