как сделать облако слов

Как создать облако слов из большой книги: пошаговый алгоритм

Облако слов — это визуализация частотности слов в тексте. В процессе создания визуальной библиотеки я сталкивался с проблемами и нашел несколько хороших вариантов их решения, которыми хочу поделиться. Способ помогает создавать облака слов из больших книг, например, «Война и мир», сводя к минимуму ручной труд.

ВиМ

Алгоритм:

1. Узнать количество всех слов.

Для этого зайдите на www.wordclouds.com, нажмите слева кнопку File и уберите галочку напротив Ignore stop words. Это оставит в тексте предлоги и единичное местоимение «Я» (важное для анализа текста). Затем скопируйте и вставьте текст книги в окно Wizard. Можно загрузить Word или PDF

как сделать облако слов из книги

2. Скачайте таблицу в формате CSV (кнопка Word list, затем Export CSV).

Текущие - New frame (1)

3. Очистите данные. 

3.1. Конвертировать CSV в эксель (XLS)

Это можно сделать здесь.  

3.2. Удалить ненужные предлоги.

На первом этапе мы оставили слова, состоящие из 1 и 2 букв, — предлоги, частицы, междометия, местоимение «Я». Если вам не нужны эти слова для анализа, то можно их удалить. Например, я оставляю именно предлог, а остальное убираю. 

Для этого проводим сортировку таблицы XLS по количеству символов. Ставим курсор в соседнюю колонку от слов, используем формулу =ДЛСТР (длина строки). Растягиваем ее на весь столбец, затем «Сортировка» от минимального к максимальному. Так мы собираем сверху все слова из одной и двух букв и можем удалить ненужные и оставить нужные. После очистки этот столбец можно удалить.

3.3. Привести к базовым формам.

Скопируйте слова и их частоту. Зайдите на сайт py7.ru и вставьте в окно «Список запросов». Чтобы удалить частицы и предлоги, привести все слова к базовой форме (именительный падеж, единственное число, инфинитив и пр.), поставьте галочки, как показано на скриншоте. Нажмите «Нормализовать» и скопируйте получившийся результат.

удалить частицы, союзы, предлоги в таблице онлайн

4. Удалите пустые строки и посчитайте количество дублей форм слов.

Вставьте скопированные слова и их количество в XLS. Отсортируйте результат по алфавиту. Скопируйте столбец со словами в ячейку Е, затем выберите ее и нажмите «Данные» — «Удалить дубликаты». Поставьте курсор в ячейку D1 и вставьте формулу =СУММЕСЛИ(B:B;E1;A:A) в строку формул, затем растяните ячейку D1 до конца таблицы. Скопируйте получившуюся таблицу (ячейки D и E) на новый лист. Так мы получили таблицу частотности всех слов текста в начальной форме (И.п., ед. ч., инфинитивы) без частиц, предлогов и междометий. Скачайте лист в формате CSV.

облако слов сортировка по алфавиту удаление дублей

5. Загрузите очищенные данные в конструктор облака слов.

Вернитесь на сайт www.wordclouds.com и загрузите файл (кнопка Word list, затем Import CSV) нажмите Apply.

6. Настройте получившееся облако слов.

Нажимайте на кнопку минус до тех пор, пока не вместятся все слова на лист. Затем выберите расстояние между словами, шрифт, форму облака, цвет слов и фона. Скачать результат можно в первой вкладке «File» — «Save as Image».

как пользоваться вордклаудс облако слов сайт

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s