[ Писателям · Поэтам · Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 3 из 3
  • «
  • 1
  • 2
  • 3
Модератор форума: Apach  
Форум » Мастерская » Писательская мастерская » Статистика слов (Кое о чем, что может оказаться интересным и полезным)
Статистика слов
PlotnickДата: Вторник, 07.02.2012, 10:09:21 | Сообщение # 1
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов
Прикрепления: Для скачивания необходима регистрация.
 
Сообщение"— Возьмем книги, в которых пятьдесят—сто тысяч слов, — сказала Лотария. — Советую обратить внимание на слова, повторяющиеся около двадцати раз. Вот, взгляните — эти слова употреблены девятнадцать раз:
вместе, вперед, выстрелы, давай, есть, жизнь, зубы, командир, кровь, отвечать, паук, портупея, твоя, точно, часовой, ясно...
А эти — восемнадцать раз:
брюхо, вечер, здорово, картошка, мертвый, настает, новый, пилотка, покуда, пошел, пройдет, ребята, те, точка, француз, хватит...
Вы уже догадались, о чем речь? — спрашивает Лотария. — Книга, конечно, о войне. Сплошное действие, сухой язык, жестковатый стиль, сцены насилия. Весь сюжет как на ладони. Для убедительности полезно заглянуть в перечень слов, употребленных только раз. Хотя от этого они не менее значимы. Ну, скажем, такой ряд:
панталоны, платье, подвал, поджарый, подземелье, подземный, подкоп, подрыв, подрывной, поляна, потихоньку, похоронить, пролетарии...
Нет, здесь не все так ясно и просто, как могло показаться. Эта книжица с двойным дном. Его-то я и буду искать.
Лотария протягивает мне следующие списки:
— А вот совсем другая вещь. Это сразу видно. Вначале идут слова, встречающиеся около пятидесяти раз:
был, ее, мало, муж, Рикардо (51); была, вещь, вокзал, есть, ответил, перед (48); все, комната, Марио, несколько, раз, только (47); казалось, пошел, утро, чей (4б); должен был (45); до, имел бы, рука, слушай (43); вечер, годы, девушка, Делия, кто, руки, ты, Чечина (42); вернулся, мог, мужчина, одна, окно, почти (41); меня, хотел (40); жизнь (39)...
Что скажете? Это явно о личной жизни: тонкие чувства, внутренние переживания едва намечены, скупой антураж, провинциальная обыденность... Для проверки посмотрим слова, употребленные по разу:
перехитрить, полнеть, пониже, превратный, преклониться, преувеличивать, прилежный, приревновать, проглатывала, проглотила, проглоченная, промерзлый, простодушие, профессор...
Ну что же, теперь картина прояснилась: яснее и душевное состояние героев, и условия их жизни... Перейдем к третьей книге:
Бог, волосы, второй, деньги, особенно, почти, раз, тело, счет (39); вечер, вино, Винченцо, дождь, жить, кто-то, мука, причина, продукты (38); ее, зеленый, итак, нежный, ноги, смерть, яйца (36); белый, голова, грудь, даже, делают, день, дети, живет, имели бы, машина, ну, осталась, ткань, черные (35)...
Здесь все намного плотнее, гуще, живее. Сюжет сколочен прочно, грубовато, без прикрас. Вещь откровенно чувственная. Любовные сцены поданы напрямую, раскованно, по-простому. Обратимся к списку слов с частотностью единица. Например:
первозданный, подтверждаться, позор, позорил, позорить, позориться, позоришь, позорище, позорник, позорно, позорный, позорю, позоря, помидоры, портвейн...[7 - Списки слов взяты из сборников «Электронные выборки современного литературного итальянского языка» под редакцией Марио Алинея; Болония, 1973. Сборники посвящены трем романам итальянских писателей. (Прим. автора)]
Видите? Чувство вины в чистом виде! Верный знак. Критический разбор можно начать именно отсюда, наметив основные пункты..."

Итало Кальвино. "Если однажды зимней ночью путник".

Заинтересованный этой идеей я написал небольшую программку, которая позволяет подсчитать количество использованных в произведении слов и оценить словарный запас. Путем нескольких проверок мне удалось обнаружить, что в этом что-то есть. Что касается сюжетной характеристики, то оценивать произведение по набору слов довольно не просто. Мне показалось, что наиболее значимыми в произведении размером 500-600 тысяч знаков буду слова повторяющиеся от 10 до 50 раз. А со словарным запасом все вышло еще более неоднозначно. Вот некоторые результаты:

Дмитрий Быков. Остромов, или ученик чародея. 40500 слов.
Борис Дышленко. Людмила. 35150 слов.
Иван Дышленко. Охотник. 20900 слов.
Андрей Левицкий. Выбор оружия. 18940 слов.
Алексей Гравицкий. В зоне тумана. 18400 слов.
Алексей Калугин. Дом на болоте. 16800 слов.
Николай Гоголь. Тарас Бульба. 11040 слов.
Александр Пушкин. Капитанская дочка. 9145 слов.

Действует ли правило "лучше меньше, да лучше"? Важно ли сколько слов ты используешь, или важно, как ты их используешь? Предлагаю авторам развлечения ради прогнать свои произведения через предложенную программу и оценить результаты.



Первая версия программы, выше в тексте Вторая версия с отсеиванием 1 - 3 буквенных слов

Автор - Plotnick
Дата добавления - 07.02.2012 в 10:09:21
ммихаиллДата: Четверг, 09.08.2012, 16:32:12 | Сообщение # 31
Слово
Группа: Читатели
Сообщений: 36
Статус: Offline
Kotoleg, Правильно говоришь. Plotnick, если не трудно, пожалуйста, переделайте программу. Просим.

Мой новый постапокалиптический проект: Испытатели
Книга «Испытатели» уже пишется. Следите за написанием: Испытатели
 
СообщениеKotoleg, Правильно говоришь. Plotnick, если не трудно, пожалуйста, переделайте программу. Просим.

Автор - ммихаилл
Дата добавления - 09.08.2012 в 16:32:12
PlotnickДата: Четверг, 09.08.2012, 16:41:07 | Сообщение # 32
Самоубивец форума
Группа: Администрация
Сообщений: 3379
Статус: Offline
Именно потому и убраны из статистики слова менее трех букв. Их всегда много, по отношению к остальным словам. И личных местоимений, и союзов и "это, был, б, бы, же". Поэтому снова откапывать сорцы, переписывать, перевыкладывать только для того, чтобы убедиться что это действительно так, мне лень.
 
СообщениеИменно потому и убраны из статистики слова менее трех букв. Их всегда много, по отношению к остальным словам. И личных местоимений, и союзов и "это, был, б, бы, же". Поэтому снова откапывать сорцы, переписывать, перевыкладывать только для того, чтобы убедиться что это действительно так, мне лень.

Автор - Plotnick
Дата добавления - 09.08.2012 в 16:41:07
KotolegДата: Суббота, 11.08.2012, 13:14:21 | Сообщение # 33
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Обратил внимание на другой способ статистики слов в процентном отношении. Вычисляется самое массовое слово, это сумма берётся за 100% и от него вычисляется процент других использованых слов.



Я посмотрел в инете, так там разных прог по определению частот слов на любой вкус, хочешь на комп, хочешь - онлайн, выбор большой. Проблема только в анализе полученной статистике. Например, на скрине видно, что на 1063 слова у меня 31 слова "и", если это слово распределена по тексту равномерно, то проблем нет, но, если это слово концетрируется в одном определённом месте на небольшом участке, то это проблема, которую нужно решать и так далее. Вот таких инструкций, как правильно анализировать статистику слов мало, да и то, там чёрт ногу сломает.

Добавлено (11.08.2012, 13:14:21)
---------------------------------------------
ммихаилл, в первом посте прикрепленна запрошенная тобой программка. Спасибо Диме Чекану за сохранение этой програмки.

 
СообщениеОбратил внимание на другой способ статистики слов в процентном отношении. Вычисляется самое массовое слово, это сумма берётся за 100% и от него вычисляется процент других использованых слов.



Я посмотрел в инете, так там разных прог по определению частот слов на любой вкус, хочешь на комп, хочешь - онлайн, выбор большой. Проблема только в анализе полученной статистике. Например, на скрине видно, что на 1063 слова у меня 31 слова "и", если это слово распределена по тексту равномерно, то проблем нет, но, если это слово концетрируется в одном определённом месте на небольшом участке, то это проблема, которую нужно решать и так далее. Вот таких инструкций, как правильно анализировать статистику слов мало, да и то, там чёрт ногу сломает.

Добавлено (11.08.2012, 13:14:21)
---------------------------------------------
ммихаилл, в первом посте прикрепленна запрошенная тобой программка. Спасибо Диме Чекану за сохранение этой програмки.


Автор - Kotoleg
Дата добавления - 11.08.2012 в 13:14:21
ммихаиллДата: Суббота, 11.08.2012, 14:52:39 | Сообщение # 34
Слово
Группа: Читатели
Сообщений: 36
Статус: Offline
Kotoleg, я скачал обе версии, но никакого отсеивания от 1-3, не нашёл. Где?

Мой новый постапокалиптический проект: Испытатели
Книга «Испытатели» уже пишется. Следите за написанием: Испытатели
 
СообщениеKotoleg, я скачал обе версии, но никакого отсеивания от 1-3, не нашёл. Где?

Автор - ммихаилл
Дата добавления - 11.08.2012 в 14:52:39
KotolegДата: Воскресенье, 12.08.2012, 06:59:01 | Сообщение # 35
Шатай-Балтай
Группа: Старожилы
Сообщений: 1827
Статус: Offline
Похоже мы думаем о разном, по этому и произошли непонятки, да же не представляю, что ты мог вооброзить об этой небольшой программке из нашей дискуссии выше, извини. Так что, лучше вбей в поиковик браузера "Частота слов" и выбери себе по вкусу что-нибудь из предложенных поисковиком программ.
 
СообщениеПохоже мы думаем о разном, по этому и произошли непонятки, да же не представляю, что ты мог вооброзить об этой небольшой программке из нашей дискуссии выше, извини. Так что, лучше вбей в поиковик браузера "Частота слов" и выбери себе по вкусу что-нибудь из предложенных поисковиком программ.

Автор - Kotoleg
Дата добавления - 12.08.2012 в 06:59:01
Форум » Мастерская » Писательская мастерская » Статистика слов (Кое о чем, что может оказаться интересным и полезным)
  • Страница 3 из 3
  • «
  • 1
  • 2
  • 3
Поиск:
Загрузка...

Статистика
Яндекс цитирования
Copyright © автор идеи: OgneV; дизайн: Plotnick (2009-2024); Сайт управляется системой uCoz