Облако слов — это визуализация частотности слов в тексте. В процессе создания визуальной библиотеки я сталкивался с проблемами и нашел несколько хороших вариантов их решения, которыми хочу поделиться. Способ помогает создавать облака слов из больших книг, например, «Война и мир», сводя к минимуму ручной труд.

Алгоритм:
1. Узнать количество всех слов.
Для этого зайдите на www.wordclouds.com, нажмите слева кнопку File и уберите галочку напротив Ignore stop words. Это оставит в тексте предлоги и единичное местоимение «Я» (важное для анализа текста). Затем скопируйте и вставьте текст книги в окно Wizard. Можно загрузить Word или PDF.

2. Скачайте таблицу в формате CSV (кнопка Word list, затем Export CSV).

3. Очистите данные.
3.1. Конвертировать CSV в эксель (XLS)
Это можно сделать здесь.
3.2. Удалить ненужные предлоги.
На первом этапе мы оставили слова, состоящие из 1 и 2 букв, — предлоги, частицы, междометия, местоимение «Я». Если вам не нужны эти слова для анализа, то можно их удалить. Например, я оставляю именно предлог, а остальное убираю.
Для этого проводим сортировку таблицы XLS по количеству символов. Ставим курсор в соседнюю колонку от слов, используем формулу =ДЛСТР (длина строки). Растягиваем ее на весь столбец, затем «Сортировка» от минимального к максимальному. Так мы собираем сверху все слова из одной и двух букв и можем удалить ненужные и оставить нужные. После очистки этот столбец можно удалить.

3.3. Привести к базовым формам.
Скопируйте слова и их частоту. Зайдите на сайт py7.ru и вставьте в окно «Список запросов». Чтобы удалить частицы и предлоги, привести все слова к базовой форме (именительный падеж, единственное число, инфинитив и пр.), поставьте галочки, как показано на скриншоте. Нажмите «Нормализовать» и скопируйте получившийся результат.

4. Удалите пустые строки и посчитайте количество дублей форм слов.
Вставьте скопированные слова и их количество в XLS. Отсортируйте результат по алфавиту. Скопируйте столбец со словами в ячейку Е, затем выберите ее и нажмите «Данные» — «Удалить дубликаты». Поставьте курсор в ячейку D1 и вставьте формулу =СУММЕСЛИ(B:B;E1;A:A) в строку формул, затем растяните ячейку D1 до конца таблицы. Скопируйте получившуюся таблицу (ячейки D и E) на новый лист. Так мы получили таблицу частотности всех слов текста в начальной форме (И.п., ед. ч., инфинитивы) без частиц, предлогов и междометий. Скачайте лист в формате CSV.

5. Загрузите очищенные данные в конструктор облака слов.
Вернитесь на сайт www.wordclouds.com и загрузите файл (кнопка Word list, затем Import CSV) нажмите Apply.

6. Настройте получившееся облако слов.
Нажимайте на кнопку минус до тех пор, пока не вместятся все слова на лист. Затем выберите расстояние между словами, шрифт, форму облака, цвет слов и фона. Скачать результат можно в первой вкладке «File» — «Save as Image».
