Применение искинов - шоссе империализма (Стенгазета русификаторов ИТ)

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Применение искинов - шоссе империализма (Стенгазета русификаторов ИТ) » предлагаемые стандарты » УТКА - альтернатива таблице кодепоинтов Юникода


УТКА - альтернатива таблице кодепоинтов Юникода

Сообщений 1 страница 6 из 6

1

Ранее по теме:
2024-09-05, Юникод (Unicode) и УПС-8 (UTF-8)
2022-12-14, Строки, хранение и обработка

2023-05-02, http://compiler.su/pravila-yazyka-alfavit.php
  «решено остановиться пока что на восьмибитной кодировке. Предпочтение отдано кодировке cp866»
2013-03-24, http://compiler.su/vybor-kodirovki-dlya … yatora.php
  «внутри» компилятора, в служебных таблицах и словарях должна использоваться UTF-16.
  Павиа: «Нет кодировки лучше GB18030»

2016-12-28, https://remdev.mybb.ru/viewtopic.php?id=38
  Яр: «первые  2^7=128 начиональный наш алфовит»

Отредактировано Лис (2024-09-05 05:48:03)

0

2

А эти альтернативные кодировки уже внедрены какие-то ОС?

0

3

ИванАс написал(а):

А эти альтернативные кодировки уже внедрены какие-то ОС?

Нет, конечно. Ведь написание ОС у нас на седьмом шаге, а пока ещё первый (ассемблер) не готов.

Но я должен сказать, что Юрий не прав.
Он говорит, что кодировка одна, и её символы навсегда.

Все экзотичные кодировки уходят в прошлое, остаются только общепризнанные. Поэтому разговоры о платформозависимых или независимых кодировках становятся схоластикой. 10 и 13 — он и в Африке 10 и 13.

"обще" - здесь имеется в виду "западным миром".

В то же время, Россия в юникоде ущемляется.
☦️⛪ - это был православный крест и обобщённая (христианская) церковь
🪆 Матрёшка (Nesting Dolls, U+1FA86)

Там есть единорог, но нет змея горыныча. Двухглавого орла тоже нет (только американский - 🦅 Орел (U+1F985))
Есть традиционный японский дом, но нет избушки (ни с курьими ножками, ни без)
Есть символ английского камина - ( fireplaces 🗖 U+1F56F), но нет символа печи-для-Иванушки.
Нет знака качества из СССР, красной звезды (предлагают чёрную перекрашивать при помощи CSS),
Символ спутника изображает современный спутник, а не первый, и называется от Satellite, а не Sputnik
Нет символа ГЭС (перегородили Енисей), нет колобка, хотя символ статуи свободы там есть.
Берестяные грамоты, Кремль - всё это в Unicode отсутствует.

Отредактировано Лис (2024-11-13 17:14:28)

0

4

Пример варианта однобайтной таблицы:
https://compiler.su/index.php#141

Код:
А Б В Г Д Е Ё Ж З И Й К Л М Н О 
П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю 
Я Ѣ І Ѳ Ѵ Ѯ Ѱ Ѡ Ѕ Ҷ Ӷ Ҳ Ҫ Қ Ў Ӂ 
А́ Е́ И́ О́ У́ Ы́ Э́ Ю́ Я́ Ё́ Ѣ́ І́ Ѵ́ Ѡ́ Ӓ Ӧ 
А̀ Ѐ Ѝ О̀ У̀ Ы̀ Э̀ Ю̀ Я̀ Ё̀ Ѣ̀ І̀ Ѵ̀ Ѡ̀ Ѿ Ѣ̈
а б в г д е ё ж з и й к л м н о 
п р с т у ф х ц ч ш щ ъ ы ь э ю 
я ѣ і ѳ ѵ ѯ ѱ ѡ ѕ ҷ ӷ ҳ ҫ қ ў ӂ
а́ е́ и́ о́ у́ ы́ э́ ю́ я́ ё́ ѣ́ і́ ѵ́ ѡ́ ӓ ӧ
а̀ ѐ ѝ о̀ у̀ ы̀ э̀ ю̀ я̀ ё̀ ѣ̀ і̀ ѵ̀ ѡ̀ ѿ ѣ̈
0 1 2 3 4 5 6 7 8 9    
. , : ; - — ? ! ( ) [ ] { }	
+ − × / ^ √ < > = ≤ ≥ ≠ ~ ≈ ≡ ±	
« » „ “ ’ ° ′ ″ _ ¯ | \ ← ↑ → ↓ 
§ % ‰ ҂ ¤ ∞ ∙ № ₽ ☦ ✓ ✗ ☆ ☭

Чего я здесь не вижу:
0x00 - символ конца строки в памяти
0x0D - символ конца строки на диске
0x20 - символ пробела
символ табуляции (0x09), наверное, не нужен
символ перевода строки (0x0A), парный к символу возврата каретки, наверное, тоже не нужен

Так-то они "управляющие символы" и относятся к бинарному формату разметки.
Но это надо как-то записать, что такой формат вообще есть и что его надо понимать.

Такой подход сразу ломает идею работы в Linux в специальной локали (ну и фиг с ней, с этой идеей? А кросс-компиляцию делать в кодах.)

Что нужно:
1) титло надо буквами, которые вместо чисел (старое русско-римское счисление)
2) подчёркивание красной волнистой линией (для уроков русского языка)
3) символ "крышки" для обозначения корней
4) символ "загогулины" для обозначения приставок
5) символ "прямоугольник" для обозначения окончаний
6) символ солнышка (для уроков математики)

Нехватает символов матлогики - ∀, ∃ (квантор общности, квантор существования).
Мы же не хотим, чтобы программирование было бездоказательным?
Логические операции
¬,
Ну и до кучи для модальных логик - бокс  ◻, ромб  ◊
То же самое с операциями для множеств
∊ ⊃ ∪ ∩, пустое множество - ⌀

33 буквы алфавита
10 букв с ударением
16 букв c титлом
10 цифр (хотя ИНДИЙСКИЕ цифры для арабских чисел, в общем, не нужны, их можно в многобайтные переместить)
уже 72 символа
~ 32 символа  пунктуация
всё остальное до 128 - математическое

Для школьной химии - стрелка вверх (улетучивается), стрелка вниз (выпадает в осадок)

Символ универсальной валюты можно.
Конкретные символы валют,
Р, $, юани - поместить в многобайтные (200+ стран на планете)

См. также
КРЯ-8 - альтернатива УПС-8 (UTF-8)

Отредактировано Лис (Вчера 22:26:02)

0

5

Нужно сделать локаль для линукса
sudo locale-gen ru_RU.UTKA2025
(ну и шрифты)

И тогда прямо в этой кодировке можно будет писать тексты программ под Linux

И надо разобраться, как вообще в линуксе работают локали, и задокументировать это всё.

Ведь работали же раньше в 8-ми битной кодировке KOI8-R, но на более длинную переходить не стали.
А надо было переходить, так как в России много национальных (государственных) языков, их список прямо сейчас составляется (по поручению Путина).

И всё ещё актуальна эта/такая задача (по созданию многобайтной российской кодировки не только под кириллицу, но и другие алфавиты).

См. также
Ivan хвалится достижениями, но не показывает исходники

Отредактировано Лис (2025-01-16 18:38:10)

0

6

https://compiler.su/index.php#168

Борис К. написал(а):

Си и Юниксы намертво завязаны на т.н. "переносимый набор символов"
Хрен Вам, а не Линукс. Пишите свою операционку.

Ну, можно как NuShaman сделать отображающую программу (типа "эмулятор терминала").
Так-то операционками БудДен занимается, мы ему можем только требования накидать, а он их может проигнорировать, потому что он самый умный.

Вообще ядро линукса рисованием не занимается. Оно пересылает массивы байтов и их длины (в байтах).
Поэтому если кодировка не битовая, то можно использовать ядро, переписав юзерспейс.

А рисовать в терминале хотелось бы гиперсылки и разбор русских предложений по членам предложения ("подчеркните сказуемое двойной чертой")

https://compiler.su/index.php#175

Борис К. написал(а):

Абсолютно необходимы:

ѣ і ѳ ѵ дореформенные буквы.
ѯ ѱ ѡ ѿ ѕ ӓ допетровские.
ӧ использовалась в одном стихотворении Маяковского (гӧрл).
ѣ̈ использовалась в словаре Даля (звѣ̈зды).
ҷ ӷ ҳ ҫ қ ў ӂ для русификации латинского алфавита (q → ҷ, h → ӷ|ҳ, c → ц|ҫ|қ, w → ў, j → й|ӂ)

От побочного ударения тоже отказаться нельзя — это современная русская орфография.

Если они дореформенные, ничто не мешает им находится в двухбайтовых символах.
А вот заглавные буквы я как-то забыл посчитать.

Я думаю - а что если ударения не "сливать" с буквами, а сделать отдельными символами?
Или всё-таки слить, но "ударенные" буквы поместить в двухбайтовую часть?
А что если так же поступить с заглавными? В смысле сделать один символ, который приклеивается к маленькой букве и превращает её в заглавную.

Отредактировано Лис (2025-01-16 23:35:52)

0


Вы здесь » Применение искинов - шоссе империализма (Стенгазета русификаторов ИТ) » предлагаемые стандарты » УТКА - альтернатива таблице кодепоинтов Юникода