В любом случае для обработки графем придётся жить с тем, что один условный char в массиве не соответствует одной графеме.
Причем здесь Юникод? В мире есть языки, отличающиеся от записи русского языка и с этим нужно свыкнуться и жить дальше. Предложите лучшую альтернативу. Вариант - только 33 русских букв, не вариант. С этим тоже нужно свыкнуться и жить дальше, а не натягивать свое кривое зеркало на весь мир вокруг себя.
Формат представления никак не помогает правильно работать с графемами: что в UTF-32, что в UTF-8 надо знать отдельные правила их обработки.
Кому это нужно знать? Вы берете библиотеки и используете их. Решением данных вопросов будут заниматься специалисты - узкая группа программистов, которая напишет вам библиотеку.
Отредактировано utkin (2018-11-17 09:21:09)