Дата: Вторник, 07.02.2012, 10:09:21 | Сообщение # 1
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз: вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно... А эти — восемнадцать раз: брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит... Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд: панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии... Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать. Лотария протягивает мне следующие списки: — А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз: был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)... Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу: перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор... Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге: Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)... Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например: первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)] Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."
Итало Кальвино. "Если однажды зимней ночью путник".
Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:
Дмитрий Быков. Остромов, или ученик чародея. 40500 слов. Борис Дышленко. Людмила. 35150 слов. Иван Дышленко. Охотник. 20900 слов. Андрей Левицкий. Выбор оружия. 18940 слов. Алексей Гравицкий. В зоне тумана. 18400 слов. Алексей Калугин. Дом на болоте. 16800 слов. Николай Гоголь. Тарас Бульба. 11040 слов. Александр Пушкин. Капитанская дочка. 9145 слов.
Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.
Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов
Прикрепления:
Для скачивания необходима регистрация.
Дата: Среда, 08.02.2012, 08:58:04 | Сообщение # 17
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Quote (Kotoleg)
А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом
Кстати, можно взять notepad++, открыть в нем свой текст, поставить курсор на слово и оно подсветится везде.
Дата: Среда, 08.02.2012, 09:14:41 | Сообщение # 18
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Немного модернизировал программу. Теперь она исключает слова меньше четырех букв и показывает общее количество слов, а также некий "Коэффициент богатства языка", являющийся отношением числа использованных слов, к общему числу слов. Результаты коэффициента богатства:
Дмитрий Быков. Остромов, или ученик чародея. 0,3. Борис Дышленко. Людмила. 0,21 . Иван Дышленко. Охотник. 0,32. Андрей Левицкий. Выбор оружия. 0,29. Алексей Гравицкий. В зоне тумана. 0,3. Алексей Калугин. Дом на болоте. 0,3. Николай Гоголь. Тарас Бульба. 0,44. Александр Пушкин. Капитанская дочка. 0,42 .
Дата: Суббота, 11.02.2012, 10:05:02 | Сообщение # 23
Сергей Бабинец
Группа: Старожилы
Сообщений: 1676
Статус: Offline
Проверил "Галактику вокруг Зоны" 31170 слов всего, словарный запас 12404 слова... к моему великому удивлению самыми редкими словами были: "налился", "налились", "наливаюсь", "наливай", "налили" они использованы по одному разу...и кто сказал, что в Зоне много пьют
Добавлено (11.02.2012, 10:05:02) --------------------------------------------- Рассказ "Мститель" коэффициент богатства 0,57 ...Пушкин рядом не валялся
Дата: Воскресенье, 05.08.2012, 06:27:02 | Сообщение # 25
Слово
Группа: Читатели
Сообщений: 36
Статус: Offline
Программа прикольная, спасибо создателю. Проверил пишущиеся текст. Получилось вот так: Всего слов: 1799 Словарный запас: 1275 Коэффициент "богатства": 0.71 Самое частое слово: меня (18) Это хорошо?
Мой новый постапокалиптический проект: Испытатели Книга «Испытатели» уже пишется. Следите за написанием: Испытатели
Дата: Воскресенье, 05.08.2012, 06:49:16 | Сообщение # 26
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Quote (ммихаилл)
Самое частое слово: меня (18) Это хорошо?
Слово относится к личным местоимениям, а к ним нужно относится очень осторожно, если есть возможность переписать предложение исключив это слово и при этом не потеряв смысла, то лучше так и сделать.
Дата: Четверг, 09.08.2012, 07:29:48 | Сообщение # 28
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
ммихаилл, надо у Plotnickа спросить, может у него сохранилась эта прога первой версии. Если да, то пусть её тоже выложит, а пользователи сами решат нужно им учитывать буквы\слова (1-3) или нет.
Дата: Четверг, 09.08.2012, 15:25:27 | Сообщение # 30
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Quote (Plotnick)
А насколько такая информация может быть полезной?
Во первых, сейчас программа не может дать ответ - насыщен ли текст личными местоимениями, а ведь, если по статистике они выходят в первую десятку, то тексту, однозначно, требуется полная переработка.
Во вторых, если по статистике преобладают союзы - а, но, и, или, что, как и так далее, то это явный признак, что текст насыщен сложными предложениями, что то же требует пересмотр текста на вид его упрощения.
И в третьих, из статистики сейчас выпадают самые массовые сорняки - это, был, б, бы, же и так далее, которых в тексте нужно чаще пропалывать.
А так же, как в ранее выложенном мной примере, от опечаток мы не защещены.