[ Писателям · Поэтам · Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 3
  • 1
  • 2
  • 3
  • »
Модератор форума: Apach  
Форум » Мастерская » Писательская мастерская » Статистика слов (Кое о чем, что может оказаться интересным и полезным)
Статистика слов
PlotnickДата: Вторник, 07.02.2012, 10:09:21 | Сообщение # 1
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов
Прикрепления: Для скачивания необходима регистрация.
 
Сообщение"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов

Автор - Plotnick
Дата добавления - 07.02.2012 в 10:09:21
-РЕН-т-ГЕН-Дата: Вторник, 07.02.2012, 10:56:39 | Сообщение # 2
Группа: Удаленные





Барьер http://blikportal.com/forum/142-3200-1
4193 вообщем половина Пушкина
 
СообщениеБарьер http://blikportal.com/forum/142-3200-1
4193 вообщем половина Пушкина

Автор - -РЕН-т-ГЕН-
Дата добавления - 07.02.2012 в 10:56:39
Дмитрий_ЧеканДата: Вторник, 07.02.2012, 11:10:10 | Сообщение # 3
Рассказ
Группа: Писатели
Сообщений: 372
Статус: Offline
Чёрный квадрат (2,5 главы) 3 авторских листа, если не ошибаюсь. Ссылка в подписи.
6045 слов. То ли ещё будет, ведь роман написан лишь на четверть smile
Занятно, у меня очень мало повторяющихся слов. Реально повторяющиеся слова, а не предлоги, местоимения и вводные обороты, начинаются с отметки в двадцать и ниже. Я удовлетворён.


 
СообщениеЧёрный квадрат (2,5 главы) 3 авторских листа, если не ошибаюсь. Ссылка в подписи.
6045 слов. То ли ещё будет, ведь роман написан лишь на четверть smile
Занятно, у меня очень мало повторяющихся слов. Реально повторяющиеся слова, а не предлоги, местоимения и вводные обороты, начинаются с отметки в двадцать и ниже. Я удовлетворён.

Автор - Дмитрий_Чекан
Дата добавления - 07.02.2012 в 11:10:10
PlotnickДата: Вторник, 07.02.2012, 11:10:27 | Сообщение # 4
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
-РЕН-т-ГЕН-, сам текст маловат. Думаю, при увеличении объема, увеличится и запас.
 
Сообщение-РЕН-т-ГЕН-, сам текст маловат. Думаю, при увеличении объема, увеличится и запас.

Автор - Plotnick
Дата добавления - 07.02.2012 в 11:10:27
-РЕН-т-ГЕН-Дата: Вторник, 07.02.2012, 11:14:30 | Сообщение # 5
Группа: Удаленные





Plotnick, smile да понятно
 
СообщениеPlotnick, smile да понятно

Автор - -РЕН-т-ГЕН-
Дата добавления - 07.02.2012 в 11:14:30
K@ILДата: Вторник, 07.02.2012, 13:12:00 | Сообщение # 6
Миниатюра
Группа: Читатели
Сообщений: 241
Статус: Offline
Забавная шутка. Спасибо автору!


"Леш, сюда не заходит любовь
И ты чихнешь, но не скажут "будь здоров" "(с) Грязный Луи.
 
СообщениеЗабавная шутка. Спасибо автору!

Автор - K@IL
Дата добавления - 07.02.2012 в 13:12:00
ВукДата: Вторник, 07.02.2012, 13:47:29 | Сообщение # 7
Свирепый, но справедливый
Группа: Старожилы
Сообщений: 325
Статус: Offline
а вот к примеру: текст 2740 слов. согласно проверки программой словарный запас 1552 слова (порядка 80% слов не повторяются, и 19 слов встречаются от 10 до 22 раз). это нормально, или надо срочно переделывать? wink

 
Сообщениеа вот к примеру: текст 2740 слов. согласно проверки программой словарный запас 1552 слова (порядка 80% слов не повторяются, и 19 слов встречаются от 10 до 22 раз). это нормально, или надо срочно переделывать? wink

Автор - Вук
Дата добавления - 07.02.2012 в 13:47:29
-РЕН-т-ГЕН-Дата: Вторник, 07.02.2012, 14:13:29 | Сообщение # 8
Группа: Удаленные





Вук, или. Я думаю не важно как написано важно что написано. Если я правильно помню то где-то в начале лета 2010 Сергей Бабинец написал рассказ П, вот там нет ни единого повторения, но о ценности как литературной работы говорить тяжело cool
 
СообщениеВук, или. Я думаю не важно как написано важно что написано. Если я правильно помню то где-то в начале лета 2010 Сергей Бабинец написал рассказ П, вот там нет ни единого повторения, но о ценности как литературной работы говорить тяжело cool

Автор - -РЕН-т-ГЕН-
Дата добавления - 07.02.2012 в 14:13:29
PlotnickДата: Вторник, 07.02.2012, 14:15:08 | Сообщение # 9
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Quote (Вук)
а вот к примеру: текст 2740 слов. согласно проверки программой словарный запас 1552 слова (порядка 80% слов не повторяются, и 19 слов встречаются от 10 до 22 раз). это нормально, или надо срочно переделывать?


Все, кирдык. Выкинуть, переписать так, чтобы было 100000 одинаковых слов.

Кроме шуток, здесь только статистика. Выводы делайте сами.
 
Сообщение
Quote (Вук)
а вот к примеру: текст 2740 слов. согласно проверки программой словарный запас 1552 слова (порядка 80% слов не повторяются, и 19 слов встречаются от 10 до 22 раз). это нормально, или надо срочно переделывать?


Все, кирдык. Выкинуть, переписать так, чтобы было 100000 одинаковых слов.

Кроме шуток, здесь только статистика. Выводы делайте сами.

Автор - Plotnick
Дата добавления - 07.02.2012 в 14:15:08
bazil371Дата: Вторник, 07.02.2012, 14:57:52 | Сообщение # 10
Борец с безграмотностью
Группа: Старожилы
Сообщений: 1018
Статус: Offline
Ветер перемен (мой роман) - 12 а.л., 78644 слова, 483044 знака.
А словарный запас - 14 529!


Обладатель "Полной пустышки" за 1 место на 1-ом Конкурсе миниатюр, организованном сайтом "Литсталкер"


Сообщение отредактировал bazil371 - Вторник, 07.02.2012, 15:00:01
 
СообщениеВетер перемен (мой роман) - 12 а.л., 78644 слова, 483044 знака.
А словарный запас - 14 529!

Автор - bazil371
Дата добавления - 07.02.2012 в 14:57:52
KotolegДата: Вторник, 07.02.2012, 16:04:00 | Сообщение # 11
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Ваня, а почему бы тебе не включить в прогу и общее число слов в тексте, а так же не выводить соотношение (общее число слов поделить на словарный запас). Думаю, что чем меньше такое число, тем текст лучше, так как хороший писатель часто использует синонимы. wink

Кстати, проверил один свой текст - словарный запас - 1187 слов (из 2377) и одно интересное слово (неи) повторяется 87 раз. lol Вердикт - полностью переписать.
 
СообщениеВаня, а почему бы тебе не включить в прогу и общее число слов в тексте, а так же не выводить соотношение (общее число слов поделить на словарный запас). Думаю, что чем меньше такое число, тем текст лучше, так как хороший писатель часто использует синонимы. wink

Кстати, проверил один свой текст - словарный запас - 1187 слов (из 2377) и одно интересное слово (неи) повторяется 87 раз. lol Вердикт - полностью переписать.

Автор - Kotoleg
Дата добавления - 07.02.2012 в 16:04:00
PlotnickДата: Вторник, 07.02.2012, 21:47:53 | Сообщение # 12
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Kotoleg, включу. Думаю также не лишне будет отбрасывать слова из трех и менее букв. Их большую часть составляют местоимения, предлоги и т.д.
 
СообщениеKotoleg, включу. Думаю также не лишне будет отбрасывать слова из трех и менее букв. Их большую часть составляют местоимения, предлоги и т.д.

Автор - Plotnick
Дата добавления - 07.02.2012 в 21:47:53
KotolegДата: Вторник, 07.02.2012, 21:56:52 | Сообщение # 13
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Quote (Plotnick)
Думаю также не лишне будет отбрасывать слова из трех и менее букв. Их большую часть составляют местоимения, предлоги и т.д.

Может, как отдельную функцию сделать? Нажал на кнопку и слова из трёх и менее букв исчезли. А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом.
 
Сообщение
Quote (Plotnick)
Думаю также не лишне будет отбрасывать слова из трех и менее букв. Их большую часть составляют местоимения, предлоги и т.д.

Может, как отдельную функцию сделать? Нажал на кнопку и слова из трёх и менее букв исчезли. А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом.

Автор - Kotoleg
Дата добавления - 07.02.2012 в 21:56:52
CatmeattДата: Вторник, 07.02.2012, 22:26:19 | Сообщение # 14
КаЛапуСььь
Группа: Модераторы
Сообщений: 2801
Статус: Offline
Хех, у меня незаконченная книжка - 136 126 слов.
Словарный запас - 25 768. Самые мои любимые слова - и, в, не)))))) Предлоги и местоимения постоянно повторяются... Насчет существительных, глаголов и прилагательных я не совсем поняла, так как они просто утонули в массе "он", "она", "их"...


Раскудрявый клён зеленый, лист резной!

Мой ник читается как "Кетмит"
 
СообщениеХех, у меня незаконченная книжка - 136 126 слов.
Словарный запас - 25 768. Самые мои любимые слова - и, в, не)))))) Предлоги и местоимения постоянно повторяются... Насчет существительных, глаголов и прилагательных я не совсем поняла, так как они просто утонули в массе "он", "она", "их"...

Автор - Catmeatt
Дата добавления - 07.02.2012 в 22:26:19
PlotnickДата: Вторник, 07.02.2012, 22:40:14 | Сообщение # 15
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Quote (Kotoleg)
А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом.


Все возможно. Но лень.

Quote (Catmeatt)
редлоги и местоимения постоянно повторяются... Насчет существительных, глаголов и прилагательных я не совсем поняла, так как они просто утонули в массе "он", "она", "их"


Смотрите значимые слова. Они не должны повторяться по 400 раз. Я в корневом посте обозначил примерные велечины. Но это еще не все проблемы. Программа простенькая, только для подсчета. Она не анализирует падежи, однокоренные слова и прочее. А скажем "убил", или "убивает", или "убитый" для анализа содержания - суть одно и то же. Плюс незначимые глаголы, такие как "сказал", "обратился", "отправился" и т.д. Они тоже роли не игрют, но компьютерному анализу не поддаются.
 
Сообщение
Quote (Kotoleg)
А возможно ли добавить функцию, чтобы подкрашивать ранее введённые слова, например я захотел посмотреть сколько слов-сорняков у меня в тексте - ввёл список через запятую, нажал на кнопку и они подкрасились красным цветом.


Все возможно. Но лень.

Quote (Catmeatt)
редлоги и местоимения постоянно повторяются... Насчет существительных, глаголов и прилагательных я не совсем поняла, так как они просто утонули в массе "он", "она", "их"


Смотрите значимые слова. Они не должны повторяться по 400 раз. Я в корневом посте обозначил примерные велечины. Но это еще не все проблемы. Программа простенькая, только для подсчета. Она не анализирует падежи, однокоренные слова и прочее. А скажем "убил", или "убивает", или "убитый" для анализа содержания - суть одно и то же. Плюс незначимые глаголы, такие как "сказал", "обратился", "отправился" и т.д. Они тоже роли не игрют, но компьютерному анализу не поддаются.

Автор - Plotnick
Дата добавления - 07.02.2012 в 22:40:14
Форум » Мастерская » Писательская мастерская » Статистика слов (Кое о чем, что может оказаться интересным и полезным)
  • Страница 1 из 3
  • 1
  • 2
  • 3
  • »
Поиск:
Загрузка...

Статистика
Яндекс цитирования
Copyright © автор идеи: OgneV; дизайн: Plotnick (2009-2024); Сайт управляется системой uCoz