Облако слов — это визуализация частотности слов в тексте. В процессе создания визуальной библиотеки я сталкивался с проблемами и нашел несколько хороших вариантов их решения, которыми хочу поделиться. Способ помогает создавать облака слов из больших книг, например, «Война и мир», сводя к минимуму ручной труд.
Алгоритм:
1. Зайдите на www.wordclouds.com, скопируйте и вставьте текст книги в окно Wizard.
2. Скачать таблицу в формате CSV (кнопка Word list, затем Import CSV).
3. Конвертировать CSV в эксель (XLS), это можно сделать здесь. Скопировать слова и их частоту. Зайти на сайт py7.ru и вставить в окно «Список запросов».
Чтобы удалить частицы и предлоги, привести все слова к базовой форме (именительный падеж, единственное число, инфинитив и пр.), поставьте галочки, как показано на скриншоте. Нажмите «Нормализовать» и скопируйте получившийся результат.
4. Удалите пустые строки и посчитайте количество дублей форм слов.
Вставьте скопированные слова и их количество в XLS. Отсортируйте результат по алфавиту. Скопируйте столбец со словами в ячейку Е, затем выберите ее и нажмите «Данные» — «Удалить дубликаты». Поставьте курсор в ячейку D1 и вставьте формулу =СУММЕСЛИ(B:B;E1;A:A) в строку формул, затем растяните ячейку D1 до конца таблицы. Скопируйте получившуюся таблицу (ячейки D и E) на новый лист. Так мы получили таблицу частотности всех слов текста в начальной форме (И.п., ед. ч., инфинитивы) без частиц, предлогов и междометий. Скачайте лист в формате CSV.
5. Вернитесь на сайт www.wordclouds.com и загрузите файл (кнопка Word list, затем Export CSV) нажмите Apply.
6. Настройте получившееся облако слов.
Нажимайте на кнопку минус до тех пор, пока не вместятся все слова на лист. Затем выберите расстояние между словами, шрифт, форму облака, цвет слов и фона. Скачать результат можно в первой вкладке «File» — «Save as Image».