Это не будет характеристикой языка.
Самая что ни на есть характеристика - описание явлений/событий без привязки к конкретной личности и особенностям восприятия. Другой методики нет (точней будет так: моя фантазия не нашла другую методику, но я дилетант в этом вопросе).
Эта задача слишком сложная физически.
Это не вопрос методики, а вопрос реализации. Создать сеть на базе институтов в разных странах и провести международное исследование в кооперации. Да это не так просто как хотелось бы. Но чисто технически возможно. Вопрос в организации и бабках.
И это будут данные не про язык, а про распределение внимания.
Задача и состоит в том, что бы выделить наиболее общие по смыслу тексты и проверить их длину. Медиана не даст Вам учитывать текст в одну строку и в 50 страниц. Она именно подчеркивает большинство, а не среднюю температуру по больнице. А люди напишут Вам примерно одно и тоже и чем больше будет людей, тем больше одинакового напишут люди. Поисковые запросы в гугл гарантируют Вам это.
Ну, допустим, 100 программистов на с++ и 100 на Паскале напишут одну и ту же программу, чтобы компилировалась и проходила все тесты.
Какие характеристики языков затем Вы сможете извлечь и каким образом?
Число символов, число лексем/термов. Чтобы потом смело утверждать, что непонятная запись на С++ короче этого Паскаля . Для ЯП это даже проще, просто потому что число алгоритмов для реализации задачи не просто конечно, а очень конечно. Прямо вот в районе 5 шт. на простую задачку. Например, напишите факториал. Там прям вот очень мало вариантов записи. Даже сортировка, пусть и имеет кучу вариантов, все равно большинство не будет применять экзотику. Из 100 человек вряд ли все будут применять все 10 вариантов. Большинство остановится на распространенных (типа пузырька).
Ещё раз: для того чтобы корректно сравнивать две системы кодирования по плотности представления данных необходимо закодировать в обеих одни и те же данные.
Еще раз: система такова, что одни и те же данные закодировать нельзя, потому что системы кодирования не однозначны и потому что сами данные неоднозначны. Объясняю: даже у одного и того же человека восприятие одного и того же будет РАЗЛИЧНЫМ в зависимости от овердофига факторов (например, ему очень надо в туалет и соответственно восприятия будет совсем иным ). Поэтому получить одни и те же данные невозможно если они сколько нибудь отличаются от 10 строк записи.
Вы же намеренно смешиваете свойства языка с конкретными носителями - поэтому выводы получаться не о языках, а о 100 носителях.
Цель как раз и избавиться от этого путем усреднения 100 носителей. Чтобы выкинуть индивидуальную компоненту одного человека.
Вот именно для текстов существуют формальные преобразования - тексты на естественных языках рефакторятся точно также, как программные коды.
Хочу посмотреть это для Войны и Мир Толстого. Формальные преобразования внезапно имеют ограниченную область применения.
Потому что иначе был бы невозможен перевод с одного языка на другой.
А он и не возможен, Вы не знали? Дословный перевод большого текста невозможен в принципе. Ок, берете 100 переводчиков и переводите текст и Вы увидите 100 разных текстов, как так? Ведь согласно Вашим утверждениям мы должны увидеть одно и тоже, правда? Вы получите литературный перевод, который потеряет много чего (ту же игру слов например). Ну самый простой пример. Есть песня группы Scooter: How much is the fish. Переведите Яндексом . Это то что Вы предлагаете. Только песня совсем не про рыбу. Вот вообще ни разу. Не зная общераспространенных фраз понять тут смысл нельзя. Причем нужно понимать культурные особенности - это песня для англичан, не для американцев. Ну и старый баян на котором стебаются на всех этих форумах по обучению русскому языку: Косил Косой косой косой (осторожно! надмозг: oblique oblique oblique). У большинства иностранцев эта фраза вызывает разрыв шаблона из-за перегруженности слова смыслами. Варианты: Mowed slanting, slanting With slanting. A slant-eyed mower was mowing with an oblique scythe. Буржуйское: Merry Mary, marry me, marry. Немецкое: Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach (поговорка вообще-то).
Китайское 《施氏食獅史》
石室詩士施氏, 嗜獅, 誓食十獅。
氏時時適市視獅。
十時, 適十獅適市。
是時, 適施氏適市。
氏視是十獅, 恃矢勢, 使是十獅逝世。
氏拾是十獅屍, 適石室。
石室濕, 氏使侍拭石室。
石室拭, 氏始試食是十獅。
食時, 始識是十獅, 實十石獅屍。
試釋是事,
в других языках перевести однозначно нельзя, в транскрипции это звучит как:
«Shī Shì shí shī shǐ»
Shíshì shīshì Shī Shì,
shì shī, shì shí shí shī.
Shì shíshí shì shì shì shī.
Shí shí, shì shí shī shì shì.
Shì shí, shì Shī Shì shì shì.
Shì shì shì shí shī, shì shǐ shì,
shǐ shì shí shī shìshì.
Shì shí shì shí shī shī, shì shíshì.
Shíshì shī, Shì shǐ shì shì shíshì.
Shíshì shì, Shì shǐ shì shí shì shí shī.
Shí shí, shǐ shí shì shí shī, shí shí shí shī shī.
Shì shì shì shì.
А все потому что язык тональный (в зависимости от ударения и тона слова могут кардинально менять свой смысл). Этот стих убивает даже неподготовленных китайцев, существует очень далекий примерный перевод на русский .
Этим стихом убивают не только иностранцев (в основном из-за произношения):
Вяжут выдры в тундрах гетры,
В кедрах ядра зреют бренно,
Как довяжут гетры выдры,
Стырят ядра непременно!
Карл у Клары спер кораллы,
чтобы выдрам не достались.
Выдры тырят все, что видят:
ведра, ядра, гетры, кедры…
Выдры б спёрли даже тундру,
если б в вёдра поместилась.
Карл с кораллами опешил,
даже Клара прослезилась!
Что там тундра! Даже зебру
упереть пытались выдры,
чтоб таскала в тундру зебра
в ведрах стыренные ядра!
Зебра в тундре – это что-то!
Выдрам – им чужда усталость.
Взять хотели бегемота,
Но тяжеловат он малость.
А тут Грека, через реку!
Сунул Грека руки в ведра…
Видит Грека – в ведрах выдры!
Да к тому еще и в гетрах!
Выдры тут не растерялись:
Cтырили у греки лодку.
Покидали в лодку кедры
И над Грекой посмеялись.
Но осталися у Греки
Ядра, что забыли выдры,
Спрятав их подальше, в гетры.
Сунул Грека ядра в ведра,
Натянул на ноги гетры
И пошел встречаться с Кларой,
с той, что стырила кораллы
Через неделю когда иностранец все же очнется, ему объясняют, что это вообще-то скороговорка и только одна вариация. И вообще у выдр гетрами там много сакрального. Человек начинает искать вариации и пропадает еще на полгода.
Тех, кто презирает программистов, программисты презирают сильнее, чем те, кого презирают программисты, презирают программистов.
Вообще рекурсия есть чуть ли не везде (в европейских языках точно).
Таких нюансов тьма и они просто исключают однозначность перевода большого текста.
Язык С++ некоторые тоже считают излишне сложным.
Я например, но я не фанат. Для меня и китайский с его иероглифами сложный, но если куча людей пользуются им, значит не все так просто.
Отредактировано utkin (2018-08-01 10:21:33)