Русскоязычное программирование

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Русскоязычное программирование » базовые определения » Гипотеза Сепира-Уорфа


Гипотеза Сепира-Уорфа

Сообщений 1 страница 30 из 41

1

Программист Юкихиро Мацумо́то, создатель компьютерного языка Ruby, сказал, что одним из источников вдохновения для разработки его языка был научно-фантастический роман «Вавилон-17», основанный на гипотезе Сепира — Уорфа

Лучник, тренируясь стрелять с детства, выращивает в мозгу механизм, автоматически вычисляющий поправки для стрельбы в зависимости от расстояния и других факторов. После чего стрельба проходит уже без "сознательных" размышлений - достаточно смотреть на цель.

Известная, но спорная гипотеза Сепира—Уорфа говорит о том, что структура языка влияет на способ мышления. Таким образом «лучший» язык должен позволить человеку, владеющему им, мыслить яснее и разумнее (производительнее?).

Ридра Вонг продвигается в изучении «Вавилона-17» (название неизвестноо языка), она видит аналитичность и экономность этого языка, в нём можно в пять слов высказать то, на что в английском требуется целый абзац.

в критический момент Ридра открывает новое свойство «Вавилона-17», когда она думает на нём ускоряется метаболизм и замедляется время. «Вавилон-17» оказывается системой мышления, используя его Ридра находит слабые точки в построении противника и передает координаты для ударов

Отредактировано Лис (2018-07-28 12:56:44)

0

2

Известная, но спорная гипотеза Сепира—Уорфа говорит о том, что структура языка влияет на способ мышления. Таким образом «лучший» язык должен позволить человеку, владеющему им, мыслить яснее и разумнее (производительнее?).

Чтобы мыслить разумней, нужно понимать что такое разум и как он устроен, а у человека с этим большая беда. Пока что этого не наблюдается. Нет, например, превосходства каких-нибудь французов над японцами - это же разные языки и устроены по-разному. Мощность человека пока что можно определить лишь наличием определенных категорий и понятий, которыми он способен оперировать (очень отдаленно и косвенно это можно измерить словарным запасом). Соответственно, чем более универсальные такие категории (например, время, система, объект, класс, свойство и т.д.), тем более мощные построения может проводить человек (конкретный, а не принадлежащий к определенной языковой группе). Также имеет значение и алгоритмы, которые известны человеку (сравнительный анализ, декомпозиция, синтез и т.д.), а также умение их применять.

Лучник, тренируясь стрелять с детства, выращивает в мозгу механизм, автоматически вычисляющий поправки для стрельбы в зависимости от расстояния и других факторов. После чего стрельба проходит уже без "сознательных" размышлений - достаточно смотреть на цель.

А при чем здесь данная гипотеза. Это скорее наоборот, лучник ведь тренируясь не выражает никаких языковых категорий (ну, разве что "мля, не попал!").  Точней ему это не требуется для стрельбы. Также как и для кучи других навыков (плавание, езда на велосипеде и т.д.). Тут все что касается качания физико-мышечных навыков не требует (в большинстве случаев) осознания процесса. Достаточно просто тренироваться всю жизнь, чтобы быть лучше большинства остальных. Есть такой неофициальный термин "мышечная память" этой из этой оперы. Человек проходит сотни экспериментов (стрельбы из лука, плавания и т.д.) с некоторыми параметрами отличными друг от друга (например, расстояние до цели, другой лук, внутреннее состояние стреляющего, ветер и т.д.) и постепенно подбирает оптимальные параметры для используемого алгоритма (поднять лук на определенный градус, дышать ровней, чтобы устранить тремор рук и т.д.). У него есть обратная связь (попал, не попал, расстояние от центра мишени и т.д.) по которой он может контролировать результат и проводить новые эксперименты. При этом у него вырабатываются физические изменения. Он может задерживать дыхание на большее время, чем большинство людей например. Бегун и пловец также лучше контролируют свою дыхательную систему, чем большинство остальных людей. Бегун имеет более развитые мышцы ног, пловец мышцы груди. Это все качается в результате этих экспериментов-тренировок. Эта гипотеза тут вообще ни к селу, ни к городу.

Отредактировано utkin (2018-07-28 18:34:46)

0

3

utkin написал(а):

Нет, например, превосходства каких-нибудь французов над японцами - это же разные языки и устроены по-разному.

Но над какими-нибудь индейцами превосходство было. Язык и способ мышления связаны. В естественных языка остались следы рудиментов, ну, например, форма двойственного числа, очевидно, ещё со времён отсутствия развитого счёта.
Плюс языки постоянно развивались и уровень развития, очевидно, зависит от длительности существования, числа носителей и т.п.
Или вот отсутствие развитого механизма словообразования или грамматики может быстро растворить, а то и вовсе убить язык при столкновении с другими.
Ещё в языке могут возникать или не возникать разные парадоксы, формально выводиться или не выводиться какие-то законы, легко или сложно решаться задачи и т.п. - по аналогии с языками программирования.
Принципиальных проблем как бы нет - естественный язык легко переделывается под себя или группу лиц, но это не отменяет качества его контретного состояния.

Отредактировано MihalNik (2018-07-28 20:55:55)

0

4

Но над какими-нибудь индейцами превосходство было.

Это техническое превосходство. Превосходство в уровне развития цивилизации, оно имеет много факторов. Отследить здесь именно мышление в зависимости от языка невозможно. Нет никаких гарантий, что если бы индейцы находились на том же уровне технического развития (железо, порох и т.д.) конкистадоры смогли бы закрепиться в Америках.

Язык и способ мышления связаны.

Да, но видимо не так просто как нам хотелось бы.

В естественных языка остались следы рудиментов, ну, например, форма двойственного числа, очевидно, ещё со времён отсутствия развитого счёта.

Естественные языки развиваются. Старые вещи умирают (например, твердый знак), новые появляются (например, смайлики :) ).

Плюс языки постоянно развивались и уровень развития, очевидно, зависит от длительности существования, числа носителей и т.п.

В этом и есть проблема. Большое количество одновременно влияющих факторов не дают найти прямую зависимость язык-мышление. Кроме того, мир давно имеет тесные общие связи, которые стимулировали мышление сходным образом. Ну самые древние - торговля (и война). Вырабатывался ритуал встречи (гостеприимство, поднятая вверх ладонь, торговые термины и т.д.). Все это также формировало язык и мышление, закладывая некоторые базовые стереотипы, где нужно было как-то реагировать сходным образом (например, дипломатия), находить общие точки. Эти процессы ярко прослеживаются со времен античности (просто потому что с того времени имеется большое количество источников данных, точное время конечно же никто не знает).

Отредактировано utkin (2018-07-28 20:58:07)

0

5

utkin написал(а):

Естественные языки развиваются.

Вот, а это значит, что они не могут быть равны. Очевидно, что и развиваются они с разной скоростью. Некоторые так просто умирают.

utkin написал(а):

новые появляются (например, смайлики

Ну, иероглиф же, что в нём нового?

Отредактировано MihalNik (2018-07-28 21:04:28)

0

6

Вот, а это значит, что они не могут быть равны. Очевидно, что и развиваются они с разной скоростью. Некоторые так просто умирают.

Но уровень человека владеющего тем или иным языком от этого не выше и не ниже :). Нет прямой зависимости.

Ещё в языке могут возникать или не возникать разные парадоксы, формально выводиться или не выводиться какие-то законы, легко или сложно решаться задачи и т.п. - по аналогии с языками программирования.

Но в общем это не играет роли. Есть базовые вещи, обязательные практически во всех языках (например, мама есть практически в каждом естественном языке).

Принципиальных проблем как бы нет - естественный язык легко переделывается под себя или группу лиц, но это не отменяет качества его контретного состояния.

Отличия конечно есть. Но в общем итоге они не играют роли. Ну запись на русском длинней, чем на английском. Но из этого не следует, что английский мощней русского или что русский мощней английского. Нет ничего такого в английском, что нельзя написать на русском, при условии что явление не замкнуто именно на самом языке (например, игра слов). В целом там тоже есть типа эквивалентности через машину Тьюринга. Имеются какие-то базовые системы языка (типа логического отрицания или времена), которые есть в большинстве языков.

Отредактировано utkin (2018-07-28 21:03:59)

0

7

Люди часто мыслят непосредственно образами. Задача: выбрать краску для стен. Что Вы себе представите: цвет, или его название? Если название, то краску Вы не выберите. Я точно знаю, что когда судомоделист чертит чертёж корпуса беспрототипной модели, он мыслит не словами и даже не образами линий чертежа, а образом формы корпуса и образом поведения волн и набегающего потока воды. Он представляет себе, как волны разбиваются о нос корабля, причём, полноразмерного, как корпус отклоняет течение воды ниже ватерлинии и какие при этом возникают гидродинамические силы. Гарантировать же вербальность мысли можно ровно в двух случаях: во время сочинения монолога, или статьи и при формулировании реплики в диалоге/полилоге. Да и то если формулиремое собираешься или произнести устно, или записать буквами. Даже шахматист мыслит не словами, а образами позиций на доске и движений фигур.

0

8

utkin написал(а):

Но уровень человека владеющего тем или иным языком от этого не выше и не ниже . Нет прямой зависимости.

Это как? Если в языке нет какого-то слова для какого-то понятия, нет и соответствующего знания, нет литературы? Зависимость есть.

utkin написал(а):

Ну запись на русском длинней, чем на английском.

В каком-то конкретном случае может быть и так, но явно не в целом. Обратных примеров, опять же, можно найти кучу, когда по-английски нельзя сказать так кратко и чтобы было понятно.

Лис написал(а):

Люди часто мыслят непосредственно образами.

Но речь и письменность - это тоже образы, которые влияют на процесс мышления. Вот возникнет в голове у Лиса мысль и сформулирует он её в виде словосочетания. А дальше мысли могут пойти по пути частого словоупотребления. Конечно, не обязательно, но вероятность и влияние есть, таково устройство мозга и это известный факт. Например, пословицы и поговорки существуют за счёт этого. И, конечно, чужие мысли в виде цитат.

Отредактировано MihalNik (2018-07-28 22:20:38)

0

9

Что Вы себе представите: цвет, или его название?

Но есть готовые сочетания цветов (например, веяния моды, у военных свои цвета, розовым они почему то не хотят красить танки).

Я точно знаю, что когда судомоделист чертит чертёж корпуса беспрототипной модели, он мыслит не словами и даже не образами линий чертежа, а образом формы корпуса и образом поведения волн и набегающего потока воды.

Уверен есть какие-то базовые модели. Никто же не делает тупой нос в лодке. Он острый и это продиктовано практическими вещами.

Даже шахматист мыслит не словами, а образами позиций на доске и движений фигур.

Вот у кого как, а у шахматистов как раз шаблоны ярко выражены. Куча систем (например, сицилианская защита, индийская защита или там мат в три хода). Есть распространенные шаблоны алогритмов, которыми наиболее часто пользуются шахматисты. Очень редко партия начинается с пешки от ладьи или от слона. Почему? Он же мыслит образами и его никто не ограничивает. Очевидно, что имея опыт, шахматист нафиг выкидывает образное мышление и просто применяет более выигрышную стратегию (шаблон действий, приводящих к успеху).

0

10

Это как? Если в языке нет какого-то слова для какого-то понятия, нет и соответствующего знания, нет литературы? Зависимость есть.

Как раз наоборот.

В каком-то конкретном случае может быть и так, но явно не в целом. Обратных примеров, опять же, можно найти кучу, когда по-английски нельзя сказать так кратко и чтобы было понятно.

Именно в общем случае. Статистически английские слова короче русских. Насчет понятий это эквивалентно. В английском тоже есть свои загогулины, которые сложно выразить на русском. Никто не парится ни там, ни там. А просто применяют так называемый литературный перевод - передача смысла, а не дословного значения и тонкости ситуации.

0

11

utkin написал(а):

Статистически английские слова короче русских.

Но надо умножать длину на частоту словоупотребления. К тому же ёмкость слов неравнозначна - нельзя вот так заменить одно русское слово одним английским или наоборот. А ещё краткость сильно зависит от личного уровня владения языком - вначале понижается, а затем должна расти. Для развития краткости нужно заниматься переработкой предложений.
К тому же личный опыт может обманывать - если на одном языке читать документацию, над лаконичностью которой специально трудились, а на другом художественную литературу. Плюс возможен разный уровень точности и подробности перевода одного и того же произведения на разные языки, который опять же, зависит от мастерства автора и переводчиков.
Вот читаешь разные переводы книг по программирования - сразу видно, что можно писать сильно короче без потери смысла, много избыточных слов и удлинённых оборотов, которым в грамотном русском языке не место.

Отредактировано MihalNik (2018-07-28 21:43:26)

0

12

Но надо умножать длину на частоту словоупотребления. К тому же ёмкость слов неравнозначна - нельзя вот так заменить одно русское слово одним английским или наоборот.

Многие можно. Да/нет. Утро на английском это такое же утро на русском. Простые явления легко пишутся и имеют однозначное представление. Различия там уже в словах с эмоциональной окраской - смеркалось, вечерело и т.д. Стул по-английски и стул по-русски. Трансформатор и там и там. Утро например на русском короче, но рассвет длинней. И в общем если тупо меряться количеством знаков, английский короче (но не значит, что круче).

А ещё краткость сильно зависит от личного уровня владения языком - вначале понижается, а затем должна расти.

Это да, что есть то есть. Для этого и используют фишки языка, свои особенности и распространенные обороты речи.  У Яндекс переводчика (тот еще переводчик) например Ваш пост на английском длинней русского оригинала :)

Для развития краткости нужно заниматься переработкой предложений.

Просто набрать больше опыта :).

К тому же личный опыт может обманывать - если на одном языке читать документацию, над лаконичностью которой специально трудились, а на другом художественную литературу. Плюс возможен разный уровень точности и подробности перевода одного и того же произведения на разные языки, который опять же, зависит от мастерства автора и переводчиков.

Да, специфику никто не отменял.

Отредактировано utkin (2018-07-28 21:47:37)

0

13

utkin написал(а):

Да/нет

Yes|no - те же 5 букв.

utkin написал(а):

Простые явления легко пишутся и имеют однозначное представление.

И там будет минимальное различие в статистической длине. Потому что это простейшая первобытная оптимизация по одинаковым законам для всех языков. Приставки с глаголами у нас пишутся слитно, у них тоже самое как отдельные слова и не учёт одного этого факта уже перечеркнёт всю статистику средней длины слов, т.к. огромная доля речи.

Отредактировано MihalNik (2018-07-28 21:50:25)

0

14

Yes|no - те же 5 букв.

Ну в языке то гораздо больше слов.

Приставки с глаголами у нас пишутся слитно, у них - раздельно и не учёт одного этого факта уже перечеркнёт всю статистику длины слов.

Вполне возможно. Но у них там проще со всякими склонениями (фактически для третьего лица). Так что надо мерять на больших объемах текста. Перегонять энциклопедии и мерять :).

0

15

utkin написал(а):

Так что надо мерять на больших объемах текста.

Для начала надо получить корректную формулу того, что измерять. К тому же сложно учесть качество текстов, тем более большого объёма.
Теоретически нужно взять тексты, выкинуть мусор формальными методами без нарушения смысла, т.е. привести к кратким формам на обоих языках а затем сравнить их объёмы. Но возникнут проблемы расхождения смысловой нагрузки, потребуется уровнять и её. Нужны тексты без игры слов, сами слова без уменьшительно-ласкательных суффиксов в русском языке или какая-то дополнительная передача их смысла. Т.е. задача-то сложная, где-то на уровне ИИ)
Ваше заявление, что слова из английского словаря в среднем короче - неоспоримо, из чего ещё не следует большая краткость для языка в целом. Сравнение требует решить математически и физически очень сложную, запутанную задачу.

Отредактировано MihalNik (2018-07-29 00:04:32)

0

16

Ваше заявление, что слова из английского словаря в среднем короче - неоспоримо,

Конечно. Потому что Вы уже меряете текст-смысл. Я говорю просто про текст. И в этом же ключе писал, что из этого не следует, что одно лучше (хуже) другого.

0

17

MihalNik написал(а):

Для начала надо получить корректную формулу того, что измерять.

http://www.eurekanet.ru/ewww/promo/26525.html

Китайские школьники достигают значительных успехов в изучении математики, в то время как британские справляются с предметом гораздо хуже.

иероглифы хорошо подходят для того, чтобы описывать мало изменяющиеся области знаний, такие как математика.
Поэтому математику нужно изучать на китайском языке.
Из-за использования иероглифов китайцы в математике особенно хороши на общепланетарном уровне.

0

18

Лис написал(а):

Поэтому математику нужно изучать на китайском языке.

Но на русском языке её изучать и писать никто даже не пробовал. По крайней мере, последние лет 300.

utkin написал(а):

Я говорю просто про текст.

Вы меряете только слова. Корректно смерить текст относительно указанного вопроса очень сложно.

У Яндекс переводчика (тот еще переводчик) например Ваш пост на английском длинней русского оригинала

Скормил кусок гуглу, получил на несколко % длинее, но почти всё это пробелы, а слов в 1,5 раза больше. Даже с учётом погрешности на ошибки понятно, что в целом слова короче, но их надо больше. Причина очевидна - предлоги вместо суффиксов, приставок и окончаний.

Отредактировано MihalNik (2018-07-29 11:59:17)

0

19

иероглифы хорошо подходят для того, чтобы описывать мало изменяющиеся области знаний, такие как математика.

Возможно они используют другой формат изложения. И это кстати, может привести к тому, что из-за культурных различий британские школьники также плохо будут усваивать материал.

0

20

Вы меряете только слова. Корректно смерить текст относительно указанного вопроса очень сложно.

Возможно это не наша специализация. Может быть методики такие и есть. Например, заставить 100 русскоговорящих и 100 англоговорящих людей взять и описать какой-либо простой процесс (10 процессов/явлений из разных сфер жизни). Можно например заставить пересказать увиденное (например, сбор яблок в саду, все что угодно главное чтобы распространенное и общеупотребительное). Люди должны соответствовать сходим признакам (пол, возраст, материально благополучие, социальный статус). В качестве подопытных вполне годятся студенты. А потом померять тексты. Так мы усредним смысл и слова. Для чистоты эксперимента потребуется несколько групп таких людей и проведение процесса различными учеными. Если никто раньше не делал чего-то подобного это вполне годный способ сбора статистики и на нем вполне можно написать какую-нибудь диссертацию. Можно получить профессора если сравнить сразу много групп из разных стран. Даже если опросить 100 русских и потом померить написанное (в словах, буквах и пробелах) это уже интерес и научные сведения.

Отредактировано utkin (2018-07-31 09:11:23)

0

21

Такой замер ничего не даст. Потому что важна не компактность записи, а расходуемая энергия. Иначе у арифметического кодера-архиватора записывать и читать по метрике компактности лучше получается.

Отредактировано Лис (2018-07-31 13:35:33)

0

22

utkin написал(а):

Например, заставить 100 русскоговорящих и 100 англоговорящих людей

Сложно разделить характеристику двухсот людей и двух языков. Вон испанцы, кажется, славятся длинными речами - это характеристика языка или гормональных особенностей? :rolleyes:
Чтобы объективно сравнивать языки нужно формальными методами соотносить тексты, передающие строго один и тот же смысл. Если говорить о возможностях краткости - предельно ужать каждый из них в рамках доступных возможностей соответствующего языка без потерь.

Лис написал(а):

Потому что важна не компактность записи, а расходуемая энергия

Она будет различаться на разных уровнях. Чтобы выражаться кратко и точно - нужно лучше продумывать речь. Изливать потоком всё, что взбредёт на ум, проще, но язык будет быстрее уставать, при письме - руки)

Лис написал(а):

Такой замер ничего не даст.

Ну почему же? Даст, только не то, что указано. Он усреднит ассоциирование, т.е. определит, на что люди обращают внимание. Но отношения к кодированию смысла текстом никакого иметь не будет. Не говоря даже о том, что устный пересказ - это вообще не текст, разница колоссальная.
Вроде бы написал - математика исключает лёгкое решение точной задачи оптимизации. Потому что сложные грамматики и нейронные сети. И по причине последних же исключена существенная разница в краткости - только структурные различия.

Отредактировано MihalNik (2018-07-31 14:37:19)

0

23

Чтобы объективно сравнивать языки нужно формальными методами соотносить тексты, передающие строго один и тот же смысл.

Это невозможно для хоть немного чуть сложного процесса чем 2 + 2. И даже один и тот же человек воспринимает одно и тоже по-разному в зависимости от кучи всяких причин (как внутренних так и внешних).

Если говорить о возможностях краткости - предельно ужать каждый из них в рамках доступных возможностей соответствующего языка без потерь.

Но мы же не собираемся ужимать текст. Мы просто хотим проверить у кого длинней короче текст. Нет соревнования в том что бы написать максимально коротким способом. Есть желание проверить именно повседневное пользование.

Он усреднит ассоциирование, т.е. определит, на что люди обращают внимание.

Вот он общий смысл. Ставка на то, что большинство обратит внимание на одно и тоже и сделает об этом запись.

Не говоря даже о том, что устный пересказ - это вообще не текст, разница колоссальная.

Пусть пишут. Большие и маленькие тексты отбрасывать и рассчитывать медиану.

Отредактировано utkin (2018-07-31 17:02:05)

0

24

utkin написал(а):

Мы просто хотим проверить у кого длинней короче текст.

Это не будет характеристикой языка.

utkin написал(а):

повседневное пользование.

Эта задача слишком сложная физически.

utkin написал(а):

Вот он общий смысл. Ставка на то, что большинство обратит внимание на одно и тоже и сделает об этом запись.

И это будут данные не про язык, а про распределение внимания.

Ну, допустим, 100 программистов на с++ и 100 на Паскале напишут одну и ту же программу, чтобы компилировалась и проходила все тесты.
Какие характеристики языков затем Вы сможете извлечь и каким образом?

utkin написал(а):

Пусть пишут. Большие и маленькие тексты отбрасывать и рассчитывать медиану.

Ещё раз: для того чтобы корректно сравнивать две системы кодирования по плотности представления данных необходимо закодировать в обеих одни и те же данные.
Вы же намеренно смешиваете свойства языка с конкретными носителями - поэтому выводы получаться не о языках, а о 100 носителях.

utkin написал(а):

Это невозможнох

Вот именно для текстов существуют формальные преобразования - тексты на естественных языках рефакторятся точно также, как программные коды.
Потому что иначе был бы невозможен перевод с одного языка на другой. И смысловая нагрузка, а также её расхождение измеримы намного лучше, чем статистическое словоблудие.

Отредактировано MihalNik (2018-07-31 19:50:06)

0

25

MihalNik написал(а):

сравнивать две системы кодирования по плотности представления данных

Зачем это делать? У архиватора на выходе плотность представления выше, но если мозг среднего человека с разархивированием на лету справляться не будет (хотя если перфокарты взглядом читали, то может есть уникумы, которые и в уме разархивируют), то система сверхплотного кодирования вероятно не будет подходить для использования людьми. Язык С++ некоторые тоже считают излишне сложным.

Отредактировано Лис (2018-07-31 19:49:37)

0

26

Лис написал(а):

Зачем это делать?

Х.з., но вот Utkin'у же надо. Как бы результат заранее предсказуем - я об этом уже написал.

Лис написал(а):

если мозг среднего человека с разархивированием на лету справляться не будет

Наполненные "водой" тексты парсятся другими людьми довольно плохо и неохотно. Утомительно выуживать смысл.

Лис написал(а):

Язык С++ некоторые тоже считают излишне сложным.

Так из-за лишней избыточности разных знаков. Т.е. не то, чтобы слишком сложные правила, но загромождённость читать бывает непросто, особенно устаревших подходов.
А синтаксической оптимизации по статистике применения никто не делал.

Отредактировано MihalNik (2018-08-01 00:42:01)

0

27

- А я бы и не сказал, что языки программирования - сложны чем-то. Просто неудобны они. Поскольку слабо продуманы. Поскольку инострани-зированы излишне. - Не "триггер" он, это просто "ключ". (со всеми вытекающими)
- И не "пен-перди-куляр" он, а простой "отвес". - И не "конгруэнтны" они, эти треуглы, а подобны всего лишь. Мода придумывать длинные заумные словки давно уже канула в лету. Туда ей и дорога.
- "Папа, а купи мне ве́лик"... - Не "велосипед" малец просит, а ве́лик. - И не "предприниматель" он, этот пузан, тем более не "небздесмен", а обычный торгаш, барыга. - Ну пусть будет "купец" на крайняк. И это отнюдь не "блатной жаргон", а народный сленг или, как придумали его обзывать ушлые, - "просторечие"...

0

28

Это не будет характеристикой языка.

Самая что ни на есть характеристика - описание явлений/событий без привязки к конкретной личности и особенностям восприятия. Другой методики нет (точней будет так: моя фантазия не нашла другую методику, но я дилетант в этом вопросе).

Эта задача слишком сложная физически.

Это не вопрос методики, а вопрос реализации. Создать сеть на базе институтов в разных странах и провести международное исследование в кооперации. Да это не так просто как хотелось бы. Но чисто технически возможно. Вопрос в организации и бабках.

И это будут данные не про язык, а про распределение внимания.

Задача и состоит в том, что бы выделить наиболее общие по смыслу тексты и проверить их длину. Медиана не даст Вам учитывать текст в одну строку и в 50 страниц. Она именно подчеркивает большинство, а не среднюю температуру по больнице.  А люди напишут Вам примерно одно и тоже и чем больше будет людей, тем больше одинакового напишут люди. Поисковые запросы в гугл гарантируют Вам это.

Ну, допустим, 100 программистов на с++ и 100 на Паскале напишут одну и ту же программу, чтобы компилировалась и проходила все тесты.
Какие характеристики языков затем Вы сможете извлечь и каким образом?

Число символов, число лексем/термов. Чтобы потом смело утверждать, что непонятная запись на С++ короче этого Паскаля :). Для ЯП это даже проще, просто потому что число алгоритмов для реализации задачи не просто конечно, а очень конечно. Прямо вот в районе 5 шт. на простую задачку. Например, напишите факториал. Там прям вот очень мало вариантов записи. Даже сортировка, пусть и имеет кучу вариантов, все равно большинство не будет применять экзотику. Из 100 человек вряд ли все будут применять все 10 вариантов. Большинство остановится на распространенных (типа пузырька).

Ещё раз: для того чтобы корректно сравнивать две системы кодирования по плотности представления данных необходимо закодировать в обеих одни и те же данные.

Еще раз: система такова, что одни и те же данные закодировать нельзя, потому что системы кодирования не однозначны и потому что сами данные неоднозначны. Объясняю: даже у одного и того же человека восприятие одного и того же будет РАЗЛИЧНЫМ в зависимости от овердофига факторов (например, ему очень надо в туалет и соответственно восприятия будет совсем иным :) ). Поэтому получить одни и те же данные невозможно если они сколько нибудь отличаются от 10 строк записи.

Вы же намеренно смешиваете свойства языка с конкретными носителями - поэтому выводы получаться не о языках, а о 100 носителях.

Цель как раз и избавиться от этого путем усреднения 100 носителей. Чтобы выкинуть индивидуальную компоненту одного человека.

Вот именно для текстов существуют формальные преобразования - тексты на естественных языках рефакторятся точно также, как программные коды.

Хочу посмотреть это для Войны и Мир Толстого. Формальные преобразования внезапно имеют ограниченную область применения.

Потому что иначе был бы невозможен перевод с одного языка на другой.

А он и не возможен, Вы не знали? Дословный перевод большого текста невозможен в принципе. Ок, берете 100 переводчиков и переводите текст и Вы увидите 100 разных текстов, как так? Ведь согласно Вашим утверждениям мы должны увидеть одно и тоже, правда? Вы получите литературный перевод, который потеряет много чего (ту же игру слов например). Ну самый простой пример. Есть песня группы Scooter: How much is the fish. Переведите Яндексом :). Это то что Вы предлагаете. Только песня совсем не про рыбу. Вот вообще ни разу. Не зная общераспространенных фраз понять тут смысл нельзя. Причем нужно понимать культурные особенности - это песня для англичан, не для американцев. Ну и старый баян на котором стебаются на всех этих форумах по обучению русскому языку: Косил Косой косой косой (осторожно! надмозг: oblique oblique oblique). У большинства иностранцев эта фраза вызывает разрыв шаблона из-за перегруженности слова смыслами. Варианты: Mowed slanting, slanting With slanting. A slant-eyed mower was mowing with an oblique scythe. Буржуйское: Merry Mary, marry me, marry. Немецкое: Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach (поговорка вообще-то).
Китайское 《施氏食獅史》
石室詩士施氏, 嗜獅, 誓食十獅。
氏時時適市視獅。
十時, 適十獅適市。
是時, 適施氏適市。
氏視是十獅, 恃矢勢, 使是十獅逝世。
氏拾是十獅屍, 適石室。
石室濕, 氏使侍拭石室。
石室拭, 氏始試食是十獅。
食時, 始識是十獅, 實十石獅屍。
試釋是事,
в других языках перевести однозначно нельзя, в транскрипции это звучит как:

«Shī Shì shí shī shǐ»
Shíshì shīshì Shī Shì,
shì shī, shì shí shí shī.
Shì shíshí shì shì shì shī.
Shí shí, shì shí shī shì shì.
Shì shí, shì Shī Shì shì shì.
Shì shì shì shí shī, shì shǐ shì,
shǐ shì shí shī shìshì.
Shì shí shì shí shī shī, shì shíshì.
Shíshì shī, Shì shǐ shì shì shíshì.
Shíshì shì, Shì shǐ shì shí shì shí shī.
Shí shí, shǐ shí shì shí shī, shí shí shí shī shī.
Shì shì shì shì.

А все потому что язык тональный (в зависимости от ударения и тона слова могут кардинально менять свой смысл). Этот стих убивает даже неподготовленных китайцев, существует очень далекий примерный перевод на русский :).
Этим стихом убивают не только иностранцев (в основном из-за произношения):

Вяжут выдры в тундрах гетры,
В кедрах ядра зреют бренно,
Как довяжут гетры выдры,
Стырят ядра непременно!

Карл у Клары спер кораллы,
чтобы выдрам не достались.
Выдры тырят все, что видят:
ведра, ядра, гетры, кедры…

Выдры б спёрли даже тундру,
если б в вёдра поместилась.
Карл с кораллами опешил,
даже Клара прослезилась!

Что там тундра! Даже зебру
упереть пытались выдры,
чтоб таскала в тундру зебра
в ведрах стыренные ядра!

Зебра в тундре – это что-то!
Выдрам – им чужда усталость.
Взять хотели бегемота,
Но тяжеловат он малость.

А тут Грека, через реку!
Сунул Грека руки в ведра…
Видит Грека – в ведрах выдры!
Да к тому еще и в гетрах!

Выдры тут не растерялись:
Cтырили у греки лодку.
Покидали в лодку кедры
И над Грекой посмеялись.

Но осталися у Греки
Ядра, что забыли выдры,
Спрятав их подальше, в гетры.
Сунул Грека ядра в ведра,
Натянул на ноги гетры
И пошел встречаться с Кларой,
с той, что стырила кораллы

Через неделю когда иностранец все же очнется, ему объясняют, что это вообще-то скороговорка и только одна вариация. И вообще у выдр гетрами там много сакрального. Человек начинает искать вариации и пропадает еще на полгода.

Тех, кто презирает программистов, программисты презирают сильнее, чем те, кого презирают программисты, презирают программистов.

Вообще рекурсия есть чуть ли не везде (в европейских языках точно).
  Таких нюансов тьма и они просто исключают однозначность перевода большого текста.

Язык С++ некоторые тоже считают излишне сложным.

Я например, но я не фанат. Для меня и китайский с его иероглифами сложный, но если куча людей пользуются им, значит не все так просто.

Отредактировано utkin (2018-08-01 10:21:33)

0

29

- А я бы и не сказал, что языки программирования - сложны чем-то. Просто неудобны они. Поскольку слабо продуманы. Поскольку инострани-зированы излишне. - Не "триггер" он, это просто "ключ". (со всеми вытекающими)

А это чистая психология. Люди искусственно очерчивают свой круг, помечают своих. Если ты не ботаешь по фене, соответственно и отношение к тебе будет как к чужаку (это проявляется не только в речи, но и в других признаках, например, судьи носят мантии - зачем? Дембель расшит как новогодняя елка - зачем?). Сленги не просто так развиваются. Как говорил Маяковский, если звезды на небе зажигаются, значит это кому-нибудь нужно. Примеров просто тьма. Например, христиане - чтобы быть в теме и своим нужно покреститься, иначе весь этот ритуал и куча всех этих церемоний просто к тебе не применима.

Отредактировано utkin (2018-08-01 09:41:42)

0

30

utkin написал(а):

Создать сеть на базе институтов в разных странах и провести международное исследование в кооперации.

Заведомое выбрасывание средств на ветер. В международных институтах вряд ли согласятся.
Разве только в какой-нибудь отдельно взятой стране - под строго предопределённые результаты для пропаганды.

Отредактировано MihalNik (2018-08-01 21:42:02)

0


Вы здесь » Русскоязычное программирование » базовые определения » Гипотеза Сепира-Уорфа