[ Писателям · Поэтам · Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 2 из 3
  • «
  • 1
  • 2
  • 3
  • »
Модератор форума: Apach  
Статистика слов
PlotnickДата: Вторник, 07.02.2012, 10:09:21 | Сообщение # 1
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов
Прикрепления: Для скачивания необходима регистрация.
 
Сообщение"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов

Автор - Plotnick
Дата добавления - 07.02.2012 в 10:09:21
SchtirlitzДата: Среда, 08.02.2012, 00:23:37 | Сообщение # 16
Исаев
Группа: Писатели
Сообщений: 985
Статус: Offline
Из текстовых файлов откопал только Метку.
4469 слов.
Повторы предлога в, частицы не. Всего их примерно 268 для В и 260 для Не
Интересная штука smile



"Heavy Metal!!!" - кричали рыцари, проваливаясь под лед Чудского озера.
 
СообщениеИз текстовых файлов откопал только Метку.
4469 слов.
Повторы предлога в, частицы не. Всего их примерно 268 для В и 260 для Не
Интересная штука smile

Автор - Schtirlitz
Дата добавления - 08.02.2012 в 00:23:37
PlotnickДата: Среда, 08.02.2012, 08:58:04 | Сообщение # 17
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Quote (Kotoleg)
А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом


Кстати, можно взять notepad++, открыть в нем свой текст, поставить курсор на слово и оно подсветится везде.
 
Сообщение
Quote (Kotoleg)
А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом


Кстати, можно взять notepad++, открыть в нем свой текст, поставить курсор на слово и оно подсветится везде.

Автор - Plotnick
Дата добавления - 08.02.2012 в 08:58:04
PlotnickДата: Среда, 08.02.2012, 09:14:41 | Сообщение # 18
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Немного модернизировал программу. Теперь она исключает слова меньше четырех букв и показывает общее количество слов, а также некий "Коэффициент богатства языка", являющийся отношением числа использованных слов, к общему числу слов. Результаты коэффициента богатства:

Дмитрий Быков. Остромов, или ученик чародея. 0,3.
Борис Дышленко. Людмила. 0,21 .
Иван Дышленко. Охотник. 0,32.
Андрей Левицкий. Выбор оружия. 0,29.
Алексей Гравицкий. В зоне тумана. 0,3.
Алексей Калугин. Дом на болоте. 0,3.
Николай Гоголь. Тарас Бульба. 0,44.
Александр Пушкин. Капитанская дочка. 0,42 .
 
СообщениеНемного модернизировал программу. Теперь она исключает слова меньше четырех букв и показывает общее количество слов, а также некий "Коэффициент богатства языка", являющийся отношением числа использованных слов, к общему числу слов. Результаты коэффициента богатства:

Дмитрий Быков. Остромов, или ученик чародея. 0,3.
Борис Дышленко. Людмила. 0,21 .
Иван Дышленко. Охотник. 0,32.
Андрей Левицкий. Выбор оружия. 0,29.
Алексей Гравицкий. В зоне тумана. 0,3.
Алексей Калугин. Дом на болоте. 0,3.
Николай Гоголь. Тарас Бульба. 0,44.
Александр Пушкин. Капитанская дочка. 0,42 .

Автор - Plotnick
Дата добавления - 08.02.2012 в 09:14:41
Дмитрий_ЧеканДата: Среда, 08.02.2012, 09:36:06 | Сообщение # 19
Рассказ
Группа: Писатели
Сообщений: 372
Статус: Offline
Мой коэффициент по "Чёрному квадрату": 0,57

 
СообщениеМой коэффициент по "Чёрному квадрату": 0,57

Автор - Дмитрий_Чекан
Дата добавления - 08.02.2012 в 09:36:06
PlotnickДата: Среда, 08.02.2012, 09:57:46 | Сообщение # 20
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Этот момент я уже отметил. Чем меньше произведение, тем меньше в нем повторяющихся слов, тем выше результат. smile
 
СообщениеЭтот момент я уже отметил. Чем меньше произведение, тем меньше в нем повторяющихся слов, тем выше результат. smile

Автор - Plotnick
Дата добавления - 08.02.2012 в 09:57:46
Дмитрий_ЧеканДата: Среда, 08.02.2012, 10:14:07 | Сообщение # 21
Рассказ
Группа: Писатели
Сообщений: 372
Статус: Offline
Plotnick, посмотрим, что будет дальше. Хочется сохранить и преумножить результат smile

 
СообщениеPlotnick, посмотрим, что будет дальше. Хочется сохранить и преумножить результат smile

Автор - Дмитрий_Чекан
Дата добавления - 08.02.2012 в 10:14:07
ВукДата: Среда, 08.02.2012, 10:52:54 | Сообщение # 22
Свирепый, но справедливый
Группа: Старожилы
Сообщений: 325
Статус: Offline
Quote (Plotnick)
Чем меньше произведение, тем меньше в нем повторяющихся слов, тем выше результат.
то-то я удивляюсь, что у меня в двух рассказах по 0,8 biggrin


 
Сообщение
Quote (Plotnick)
Чем меньше произведение, тем меньше в нем повторяющихся слов, тем выше результат.
то-то я удивляюсь, что у меня в двух рассказах по 0,8 biggrin

Автор - Вук
Дата добавления - 08.02.2012 в 10:52:54
МелкийДата: Суббота, 11.02.2012, 10:05:02 | Сообщение # 23
Сергей Бабинец
Группа: Старожилы
Сообщений: 1676
Статус: Offline
Проверил "Галактику вокруг Зоны" 31170 слов всего, словарный запас 12404 слова... к моему великому удивлению самыми редкими словами были: "налился", "налились", "наливаюсь", "наливай", "налили" они использованы по одному разу...и кто сказал, что в Зоне много пьют wink

biggrin

Добавлено (11.02.2012, 10:05:02)
---------------------------------------------
Рассказ "Мститель" коэффициент богатства 0,57 ...Пушкин рядом не валялся biggrin

 
СообщениеПроверил "Галактику вокруг Зоны" 31170 слов всего, словарный запас 12404 слова... к моему великому удивлению самыми редкими словами были: "налился", "налились", "наливаюсь", "наливай", "налили" они использованы по одному разу...и кто сказал, что в Зоне много пьют wink

biggrin

Добавлено (11.02.2012, 10:05:02)
---------------------------------------------
Рассказ "Мститель" коэффициент богатства 0,57 ...Пушкин рядом не валялся biggrin


Автор - Мелкий
Дата добавления - 11.02.2012 в 10:05:02
K@ILДата: Понедельник, 09.04.2012, 16:00:13 | Сообщение # 24
Миниатюра
Группа: Читатели
Сообщений: 241
Статус: Offline
Вроде не все слова учитывает. "оно" например не хочет.


"Леш, сюда не заходит любовь
И ты чихнешь, но не скажут "будь здоров" "(с) Грязный Луи.
 
СообщениеВроде не все слова учитывает. "оно" например не хочет.

Автор - K@IL
Дата добавления - 09.04.2012 в 16:00:13
ммихаиллДата: Воскресенье, 05.08.2012, 06:27:02 | Сообщение # 25
Слово
Группа: Читатели
Сообщений: 36
Статус: Offline
Программа прикольная, спасибо создателю. Проверил пишущиеся текст. Получилось вот так:
Всего слов: 1799
Словарный запас: 1275
Коэффициент "богатства": 0.71
Самое частое слово: меня (18)
Это хорошо?


Мой новый постапокалиптический проект: Испытатели
Книга «Испытатели» уже пишется. Следите за написанием: Испытатели
 
СообщениеПрограмма прикольная, спасибо создателю. Проверил пишущиеся текст. Получилось вот так:
Всего слов: 1799
Словарный запас: 1275
Коэффициент "богатства": 0.71
Самое частое слово: меня (18)
Это хорошо?

Автор - ммихаилл
Дата добавления - 05.08.2012 в 06:27:02
KotolegДата: Воскресенье, 05.08.2012, 06:49:16 | Сообщение # 26
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Quote (ммихаилл)
Самое частое слово: меня (18)
Это хорошо?

Слово относится к личным местоимениям, а к ним нужно относится очень осторожно, если есть возможность переписать предложение исключив это слово и при этом не потеряв смысла, то лучше так и сделать.
 
Сообщение
Quote (ммихаилл)
Самое частое слово: меня (18)
Это хорошо?

Слово относится к личным местоимениям, а к ним нужно относится очень осторожно, если есть возможность переписать предложение исключив это слово и при этом не потеряв смысла, то лучше так и сделать.

Автор - Kotoleg
Дата добавления - 05.08.2012 в 06:49:16
ммихаиллДата: Четверг, 09.08.2012, 06:36:26 | Сообщение # 27
Слово
Группа: Читатели
Сообщений: 36
Статус: Offline
Kotoleg, Благодарю.
Скажите пожалуйста, а есть версия программы, чтобы подсчитывать предлоги (1-3)?


Мой новый постапокалиптический проект: Испытатели
Книга «Испытатели» уже пишется. Следите за написанием: Испытатели
 
СообщениеKotoleg, Благодарю.
Скажите пожалуйста, а есть версия программы, чтобы подсчитывать предлоги (1-3)?

Автор - ммихаилл
Дата добавления - 09.08.2012 в 06:36:26
KotolegДата: Четверг, 09.08.2012, 07:29:48 | Сообщение # 28
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
ммихаилл, надо у Plotnickа спросить, может у него сохранилась эта прога первой версии. Если да, то пусть её тоже выложит, а пользователи сами решат нужно им учитывать буквы\слова (1-3) или нет. smile
 
Сообщениеммихаилл, надо у Plotnickа спросить, может у него сохранилась эта прога первой версии. Если да, то пусть её тоже выложит, а пользователи сами решат нужно им учитывать буквы\слова (1-3) или нет. smile

Автор - Kotoleg
Дата добавления - 09.08.2012 в 07:29:48
PlotnickДата: Четверг, 09.08.2012, 08:58:20 | Сообщение # 29
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Не сохранилась. А насколько такая информация может быть полезной?
 
СообщениеНе сохранилась. А насколько такая информация может быть полезной?

Автор - Plotnick
Дата добавления - 09.08.2012 в 08:58:20
KotolegДата: Четверг, 09.08.2012, 15:25:27 | Сообщение # 30
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Quote (Plotnick)
А насколько такая информация может быть полезной?


Во первых, сейчас программа не может дать ответ - насыщен ли текст личными местоимениями, а ведь, если по статистике они выходят в первую десятку, то тексту, однозначно, требуется полная переработка.

Во вторых, если по статистике преобладают союзы - а, но, и, или, что, как и так далее, то это явный признак, что текст насыщен сложными предложениями, что то же требует пересмотр текста на вид его упрощения.

И в третьих, из статистики сейчас выпадают самые массовые сорняки - это, был, б, бы, же и так далее, которых в тексте нужно чаще пропалывать.

А так же, как в ранее выложенном мной примере, от опечаток мы не защещены. smile
 
Сообщение
Quote (Plotnick)
А насколько такая информация может быть полезной?


Во первых, сейчас программа не может дать ответ - насыщен ли текст личными местоимениями, а ведь, если по статистике они выходят в первую десятку, то тексту, однозначно, требуется полная переработка.

Во вторых, если по статистике преобладают союзы - а, но, и, или, что, как и так далее, то это явный признак, что текст насыщен сложными предложениями, что то же требует пересмотр текста на вид его упрощения.

И в третьих, из статистики сейчас выпадают самые массовые сорняки - это, был, б, бы, же и так далее, которых в тексте нужно чаще пропалывать.

А так же, как в ранее выложенном мной примере, от опечаток мы не защещены. smile

Автор - Kotoleg
Дата добавления - 09.08.2012 в 15:25:27
  • Страница 2 из 3
  • «
  • 1
  • 2
  • 3
  • »
Поиск:
Загрузка...

Статистика
Яндекс цитирования
Copyright © автор идеи: OgneV; дизайн: Plotnick (2009-2024); Сайт управляется системой uCoz