ПО, ЭВМ и АСУ из Таможенного Союза

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » конструирование языков » Минимальный словарный запас


Минимальный словарный запас

Сообщений 1 страница 11 из 11

1

Примерно, 3500 знаков, что составляет иероглифический минимум образованного китайца.

Basic English - 1500 слов (но это неточно, т.к. не используется этот язык широко, вдруг там ещё слова потребуются?)
https://www.native-english.ru/articles/words

"Опыт изучения языков показывает, что около 400 правильно выбранных слов могут покрыть до 90 процентов того словаря, который нужен вам для целей повседневного общения. Для того чтобы читать, понадобится больше слов, но многие из них - только пассивно. Поэтому со знанием 1500 слов вы сможете уже разбираться в достаточно содержательных текстах."
40 правильно выбранных, высокочастотных слов будут покрывать примерно 50% словоупотреблений в повседневной речи на любом языке;
    200 слов покроют около 80%;
    300 слов - примерно 85%;
    400 слов покроют уже около 90%;
    ну, а 800-1000 слов - около 95% того, что нужно будет сказать или услышать в самой обычной ситуации.

Что у нас в русском?
https://ru.wikipedia.org/wiki/Словарный_запас#Русский_язык

наибольшую частоту имеют чуть более 6 тысяч слов, покрывающих более 90 % обработанных при составлении этого словаря текстов.

https://kybaman.livejournal.com/1154036.html

для общения на французском достаточно знать 600 слов. Все слышали, что для английского достаточно 1000 слов.
Оказываеся русский самый простой - 200-500 слов и сможете начать говорить, a полторы тысячи слов вам дадут возможность хорошо говорить и читать СМИ, с 3000 слов можете писать спорить на политические темы с Путиным и читать Войну и Мир Толстого без словаря.

Отредактировано Лис (2018-05-26 12:31:35)

0

2

Ну вот про то я пишу. Про объективность. У китайца берем минимум запаса, а у нас среднее значение. Ежу понятно что практически минимум всегда меньше среднего.

наибольшую частоту имеют чуть более 6 тысяч слов, покрывающих более 90 % обработанных при составлении этого словаря текстов.

Опять же обработанный словарь терминов это не словарный запас носителя языка. Вот ни в каком месте. Блин, это так очевидно, что про такие вещи писать даже не хочется.
Я уже молчу о том, что Вы русский вообще в неприглядном свете пытаетесь выставить. Получается - чтобы оперировать русским нужно помнить и использовать больше терминов и слов. А значит он менее мощный. Проведите адекватное сравнение, не принижайте наш язык.

Отредактировано utkin (2018-05-26 11:40:56)

0

3

utkin написал(а):

чтобы оперировать русским нужно помнить и использовать больше терминов и слов. А значит он менее мощный

Не значит. Ведь качество оперирования неясно. Оперировали так качественно, что первыми из стран человечества вышли в космос. Ну а то, что слов больше нужно, так это не страшно, потому что для дела.

0

4

Получается - чтобы оперировать русским нужно помнить и использовать больше терминов и слов. А значит он менее мощный.

У папусов, чукчей или каких-нибудь других замкнутых аборигенов слов много меньше. Значит их язык самый мощный, да?
Ну а больше слов, потому что более мощное словообразование.
В английском слабое, поэтому слова заимствуются из других языков - немецкого и романских.

Отредактировано MihalNik (2018-05-26 15:16:20)

0

5

У папусов, чукчей или каких-нибудь других замкнутых аборигенов слов много меньше. Значит их язык самый мощный, да?
Ну а больше слов, потому что более мощное словообразование.

В любом случае значит есть проблемы - нужно больше затрат мощностей для анализа и вывода корректных результатов. Значит менее идеален.

В английском слабое, поэтому слова заимствуются из других языков - немецкого и романских.

Все языки заимствуют слова, в этом нет ничего страшного. Слово спутник пришло из русского и  стало международным фактически. Но они мало назаимствовали раз у них словарный запас меньше. На самом деле я совсем не про это. Я писал о том, что набор входных данных изначально подан некорректно и по ним нельзя провести сравнение. То есть проблема не в методике, а в начальных данных.

Не значит. Ведь качество оперирования неясно. Оперировали так качественно, что первыми из стран человечества вышли в космос. Ну а то, что слов больше нужно, так это не страшно, потому что для дела.

Это можно трактовать как избыточно. Вышли то мы первыми, но сейчас просто такситы, а не исследователи космоса. И то Илон Маск (одна частная лавочка!) уже наступает на пятки и лет через пять, если не раньше уделает нас по запускам.

Отредактировано utkin (2018-05-26 16:40:02)

0

6

utkin написал(а):

Получается - чтобы оперировать русским нужно помнить и использовать больше терминов и слов. А значит он менее мощный. Проведите адекватное сравнение, не принижайте наш язык.

Т.е. если применить ваш подход к ЯП, то одним из самых мощных языков программирования будет Brainfuck?

utkin написал(а):

В любом случае значит есть проблемы - нужно больше затрат мощностей для анализа и вывода корректных результатов. Значит менее идеален.

Т.е. инструкция call более затратна нежели последовательность из инструкций push и jmp?

0

7

Т.е. если применить ваш подход к ЯП, то одним из самых мощных языков программирования будет Brainfuck?

Истина посередине. Не надо бросаться из крайности в крайность. Нужно читать центральный посыл в теме - Данные представлены не корректны и позволяют свободную трактовку. Вот что я писал.

Т.е. инструкция call более затратна нежели последовательность из инструкций push и jmp?

В данном случае используется другая система команд и соответственно сравнение опять не применимо. Это классический штамп - присваивание объектам значений, для которых не созданы свойства: Из разряда - сиреневый дождик, усталая вода, квадратный программист и т.д. У объектов нет соответствующих характеристик, по которым Вы проводите сравнения.

0

8

Со 100 словами вы точно ничего путного не скажете.  Вот 1500 это уже другое дело. Хотя нормально разговаривать можно только с 3000. И то это до уровня ребёнка не дотягиваете.
К 6 годам человек знает 6000 слов.
6000/5 лет /365=3,2 новых слова в день.

0

9

Там много вопросов. Иероглифы это не слова, а хрен пойми что :). Это может быть слово или слог или просто понятие, конкретика которого определена соседним иероглифом или контекстом. Сами китайцы спорят о том, как правильно систематизировать их кляксы, тут как можно оценивать знаки из которых могут быть слова (а могут быть и не слова) и слова.

Отредактировано utkin (2018-05-30 13:11:29)

0

10

МихалНик опубликовал словарный анализ компилятора Павиа. В нём 370 разных слов.
Интересно, можно ли ужать до 256?
По какому принципу отсортированы слова в списке МихалНик (явно не по частоте).
(Вероятно, по моменту первой встречи, относительно порядка перебора файлов в считывателе МихалНик-а)

3 end 1843 }
2 begin 1515 {
1 procedure 911 I, |, !
9 then 782 :
25 if 777 ?
6 const 706
11 FFile 614
24 var 529 ☐, @
10 Result 517 ⏎
16 Node 511 ☊
5 function 468
7 TNodeAST 434
12 WriteLn 434 ✍, ~
59 TS 417 _
14 Indent 403
8 Signature 385
159 i 347
75 as 340
4 VarAssignAST 344
15 Integer 335
22 _Type 332
19 Create 299
55 nil 295
42 Kind 264
49 else 250
13 TPrinterAST 233
31 Length 231
79 Add 216
40 Write 216
277 s 214
124 of 210
17 ASTFabric 202
23 Compiler 200
36 Simvol 199
28 TTypeAST 182
18 Expression 180
41 result 178
35 TSimvol 176
43 Assert 176
47 String 173
74 case 172
21 TVarDeclAST 161
26 Designator 149
20 IndentDeclRef 137
27 FuncCallAST 135
58 Value 172
175 do 163
50 RegName 142
208 is 141
228 Op 132
65 Parent 127
141 and 126
39 SimvolsEQ 123
51 ImmConst 120
37 TIndentAST 118
163 MOV 114
166 for 113
63 Factor1 111
29 TVarAssignAST 110
272 to 109
92 class 107
44 VarDeclAST 105
45 IndentDecl 105
52 FactorAST 105
46 TypeFamily 104
30 PrintCmdAssign 101
203 Reg 98
204 EAX 98
33 TStatementAST 97
56 IndentAST 97
76 Boolean 97
106 ToReg 96
108 Error 96
53 NeedSimvol 93
155 Reg1 89
157 Self 88
57 FuncImpAST 87
160 Flag 86
99 Factor 85
38 DeclarationAST 83
248 Nil 82
72 TSemanter 81
181 Prog 80
138 Table 77
191 Arg1 77
67 WideString 75
71 TFactorAST 73
152 Items 72
62 constructor 71
64 PrintIndent 70
48 FormalParametrs 68
217 uint 68
219 Goal 68
171 Class 67
136 Format 66
232 List 65
289 Arg 65
32 TCompaundStatementAST 64
116 VarDecl 64
179 array 64
291 Ofs 64
73 FuncDeclAST 63
184 False 63
185 Count 63
235 rEAX 63
236 kind 63
238 True 63
34 CompaundStatementAST 62
60 TSignatureAST 62
54 TDeclarationAST 61
70 StatementAST 61
145 Slovar 61
126 Destroy 60
151 Righte 60
156 public 59
201 Woker 59
312 ESI 59
66 TConstDeclAST 58
81 TheCompiler 58
257 Char 58
69 CurrentSimvol 57
78 TFuncDeclAST 56
100 TCompiler 56
101 Parametrs 56
268 Left 56
119 ListFunc 55
87 OperatorAST 54
104 ActivLeaf 54
68 TTypeSimpleAST 53
93 GetRegName 53
123 property 53
82 declarations 52
83 TImmConstAST 52
146 private 52
147 TypeAST 52
231 Pavia 52
90 GetTypeSize 50
352 not 50
198 Anchor 50
161 RefFunc 49
88 ConstDeclAST 49
137 TSimvler 49
94 TTypeFamily 48
297 read 47
61 CompaundStatement 46
150 lRelTrue 45
115 NodeCreate 45
129 interface 45
183 ListVar 45
84 TDesignatorAST 44
89 ExpressionAST 44
95 TFuncCallAST 44
105 TFuncImpAST 44
132 protected 44
134 TConstAST 44
189 LevalUp 44
98 TSimvlerChar 43
318 Text 43
111 ListStatemt 42
237 isType 42
174 WideChar 41
327 Word 41
107 TTypeDeclAST 40
118 ParametrAST 40
131 ReadSimvol 40
149 published 40
178 override 40
180 TUnitAST 40
255 IsType 40
158 tfOrdinal 39
186 tfString 39
216 Simvler 39
340 Size 39
80 LabelingStatement 38
103 TGramAnaliser 38
162 SetLength 38
194 SubStack 38
224 NodeAST 38
225 FSimvol 38
263 Simple 38
97 TExpressionAST 37
117 TOperatorAST 37
172 PrintPush 37
173 AddIndent 37
85 TImplimentaionAST 36
121 NewStatement 36
135 PointerSize 36
176 Statement 36
243 ASTType 36
113 TLabelDeclAST 35
210 FuncDecl 35
91 FSemanticCheking 34
218 LocalDec 34
122 TFieldDeclAST 33
133 TParametrAST 33
259 NIndent 33
77 TLabelingStatementAST 32
86 TFormalParametrsAST 32
139 IfExpression 32
330 uint1 32
336 Parse 32
102 dkDesignatureDot 31
164 tfStructure 31
165 ImmConstAST 31
211 ForStmAST 31
244 Reserved 31
273 sIndent 31
125 implementation 30
359 DWord 30
153 FieldDeclAST 30
196 destructor 30
197 TASTFabric 30
222 tfPointer 30
96 FormalParametrsAST 29
110 ImplimentaionAST 29
128 TIndentDeclAST 29
120 PrintExpression 29
142 BaseStatement 29
182 LexAnaliser 29
205 GetUniWord 29
230 ListConst 29
190 CurrentChar 28
369 while 28
370 value 28
266 tkSimple 28
267 ReadChar 28
199 TypeDeclAST 27
200 CheckSimvol 27
221 tfUndefine 27
223 TSimvolAST 27
249 VarAssign 27
109 SimpleStatementAST 26
148 TCompilerWoker 26
167 LabelStatemnt 26
207 dkSignature 26
233 IndentKind 26
234 FactorType 26
342 Rights 26
303 _Record 26
305 ASmType 26
114 TDeclSectionParser 25
130 TStatementParser 25
143 NewVarAssignAST 25
212 IndentsList 25
358 Fields 25
264 inherited 25
265 TStackAST 25
283 ListType 25
284 FuncCall 25
112 TSimpleStatementAST 24
127 TExpressionParser 24
140 HostStatementAST 24
154 CallParametrAST 24
168 TTypeRecordAST 24
169 TForeignAsmAST 24
170 ExpressionList 24

Некоторые слова повторяются?
248 Nil 82
55 nil 295

Кроме того, надо бы ещё морфемный анализ сделать,
видно, что в разных словах есть одинаковые части.

Отредактировано Лис (2019-01-01 04:58:38)

0

11

Лис написал(а):

МихалНик опубликовал словарный анализ компилятора Павиа. В нём 370 разных слов.

Их около 2200. Но 370 это 3/4 массы.

Лис написал(а):

По какому принципу отсортированы слова в списке МихалНик (явно не по частоте). (Вероятно, по моменту первой встречи, относительно порядка перебора файлов в считывателе МихалНик-а)

Отсортированы по массе латиницы - в порядке, производительном для перевода.

Лис написал(а):

Некоторые слова повторяются?

Это потому что изначально для Оберона, где регистр отличает слова, но подходит и для Паскаля, т.к. совпадения просто облегчают труд.

Лис написал(а):

Кроме того, надо бы ещё морфемный анализ сделать,
видно, что в разных словах есть одинаковые части.

Надо:

MihalNik написал(а):

3) простой перевод не всегда допустим - местами обрывки слов и отдельные буквы. Нужен разбор идентификаторов и сокращений. Хотя бы вычленение слов/поиск по началам/выборкам согласных.

Отредактировано MihalNik (2019-01-01 12:30:56)

0


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » конструирование языков » Минимальный словарный запас