Дополнительно: частотный словарь
Реализуйте программу для построения частотного словаря на трех языках:
C++
Java
PHP
Измерьте время построения словаря. Сравните. Оптимизируйте.
Ход работы
В качестве данных используйте файл words-5m.txt.
$ wget https://csc-cpp.readthedocs.io/ru/2022/_static/s2/words-5m.txt
Прочитайте слова из файла в последовательный контейнер.
Для каждого слово вычислите количество его появлений. Воспользуйтесь подходящей структурой данных.
Измерьте время подсчета количества слов.
Для самопроверки можете вывести общее количество уникальных слов:
$ sort words-5m.txt | uniq --count | wc --lines 58410
и топ-10 частотных слов:
$ sort words-5m.txt | uniq --count | sort --human --reverse | head --lines 10 364031 the 211763 of 154576 and 132248 to 115603 in 105114 a 57269 is 54994 that 44676 for 39406 it