ПО, ЭВМ и АСУ из Таможенного Союза

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » русский язык » Лексикография


Лексикография

Сообщений 1 страница 5 из 5

1

https://ru.wikipedia.org/wiki/Лексикография

Лексикогра́фия (др.-греч. λεξικόν [lexikon] «словарь» + γράφω [grapho] «пишу») — раздел языкознания, занимающийся вопросами составления словарей и их изучения; наука, изучающая семантическую структуру слова, особенности слов, их толкование.

«компьютерная лексикография возникла как отдельная дисциплина в прикладной лингвистике с появлением машиночитаемых словарей, начиная с создания Джоном Олни карманного  словаря в компаниеи Merriam-Webster в 1960 годах.»

«В 1987 году Берд, Кальцолари и Чодоров разработали вычислительные инструменты для анализа текста.»

Когда БудДен делал словарь для переводных слов, это было не хухры-мухры, а он занимался лексикографической работой.

В частности, там есть такая задача, как "определение микроструктуры словаря", с которой он не справился.

Среди знаменитых лексикографов — Поллукс, Ш. Дюканж, И. К. Аделунг, И. Г. Вальтер, В. И. Даль.

Сегодня компьютерная лексикография наиболее известна благодаря созданию и применению WordNet.
Как пример ресурсов компьютерной лексикографии, можно привести электронные словари ABBYY Lingvo.

В Санкт-Петербурге в 2006 году была образована Лаборатория компьютерной лексикографии Института филологических иссле­дований Санкт-Петербургского государственного университета. Лаборатория занимается созданием фундаментальных и аспектных словарей современного русского языка, созданием словника, со­ставлением базы данных. В Лаборатории проходят регулярные се­минары, посвященные обсуждению наиболее сложных и нерешен­ных теоретических задач лексикографии и текущих практических трудностей. Активную работу в области компьютерной лексико­графии также проводят Лаборатория общей и компьютерной лек­сикологии и лексикографии филологического факультета МГУ им. М.В. Ломоносова. Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук и многие другие организации по всей России.

Два типа:
1) филологические словари, содержащие знания о языке;
2) энциклопедические справочники, содержащие знания о мире.

«Словари с однокомпонентной лексикой, нежели с многокомпонентной лексикой,  являются превалирующими,
однако именно многокомпонентная лексика составляет основной словарный запас человека, изучающего язык.»

Отредактировано Лис (2020-10-17 19:53:51)

0

2

Словообразовательные словари содержат сведения о морфемном членении слова, его словообразовательной структуре.
В таких справочниках представлена информация о структуре слова и тех элементах, из которых это слово состоит.
В словообразовательных словарях, в большинстве случаев, слова собраны по корневым гнёздам.

«Как считают иностранные учёные-лингвисты, в ряде случаев, в лексему включаются синтаксические и прагматические знания о слове»

Размеченность – главное отличие корпуса текстов от коллекции текстов.
В Национальном корпусе русского язы­ка сегодня разработаны пять типов разметки: метатекстовая, мор­фологическая, акцентная, синтаксическая и семантическая.

в качестве элементов словаря могут выступать следующие единицы языка:
фонемы (а чё не графемы?), морфемы, слова, словоформы и словосочетания

Возможные этапы разработки словаря:

«алгоритм составления словаря должен состоять из следующих этапов:
1. определения предметной области,
2. цели и
3. пользователей словаря;
4. определения модели знаний;
5. разработки общей концепции словаря и
6. создания словаря»

«этапы по созданию электронного словаря:
6.1. Сбор материала, который выступит в качестве основы словаря.
6.2. Написание словарных статей.
6.3. Проектирование архитектуры компьютерного приложения с несколькими вариантами поиска и группировки материала, выбор средств разработки.
6.4. Составление программистом технического задания в соответствии с разработанной концепцией.
6.5. Завершение разработки электронного ресурса: создание дружелюбного интерфейса и удобной навигации»

Компьютерная технология создания словаря включает в себя следующее:

Формирование корпуса текстов —
(Создание словника) —
Ав­томатическое формирование корпуса примеров —-
Написание сло­варных статей —
Ввод словарных статей в базу данных —
Редак­тирование словарных статей в базе данных —
Корректура текста в базе данных —
Порождение текста словаря и формирование оригинал-макета —
Печать словаря —
Словарь.

«программа лемматизации имитирует работу лексикографа, который извлекает и упорядочивает слова, относящиеся к одной лексеме.»

«Из совместной работы Ляшевской О.Н и других нам известно, что процедура автоматического сведения парадигм на первом этапе разделяет словоформу на псевдооснову и псевдоокончание, затем по всему массиву подсчитывается количество повторений каждой квазиосновы и каждого квазиокончания.»

«Наиболее простой статистический метод извлечения ключевых слов предполагает построение множества кандидатов ключевых слов путём ранжирования всех словоформ или лексем документа по частоте. Фильтрация заключается в отборе в качестве ключевых определённого количества наиболее частотных лексем.»

«сбор вокабуляра для словаря (чё? вокабуляр это не то же самое что словарь на английском?) является нетривиальным делом несмотря на количество продолженных методов по извлечению лингвистических знаний из текстов.»

«на вход поступает текст на языке, на выходе формируется список именных групп»
«именная группа – это словосочетание, в котором имя существительное является вершиной, то есть главным словом, определяющим характеристику всей составляющей»

2018, И.А. Рожин, Автоматизация извлечения лексикографической информации из текстов (на материале китайского языка)

Отредактировано Лис (2020-10-17 20:19:48)

0

3

2015, Булдакова, Компьютерная лексикография

«словари служат инструментом научного познания». «Инструментом смогут пользоваться ... люди самых различных профессий.»

«"ословаривание" научного знания является одним из основных способов его проявления и распространения»

«Терминологические банки данных (ТБД) решают следующие научные задачи:
моделирование терминологической системы русского язы­ка как системы подсистем;
построение общенаучной общетео­ретических тезаурусов;
исследование русской терминологии.»

В России крупнейшие ТБД находятся во Все­российском научно-исследовательском институте комплексной информации по стандартизации и качеству (ВНИИКИ), а также во Всероссийском институте научной и технической информации (ВИНИТИ). Одним из самых больших в мире является ТБД гер­манской фирмы "Siemens", который содержит более 2,5 млн. тер­минологических записей на 8 языках мира, в том числе на русском. В Германии ТБД функционируют в Институте стандартизации и в других органах управления. В Люксембурге в терминологическом бюро Комиссии Европейского союза создан крупнейший междуна­родный ТБД на нескольких языках; он носит название«Eurodi- cautom». Терминологический банк данных создан во французской организации по стандартизации, активно функционируют ТБД в Канаде, Швеции, Бельгии и других странах.

В Машинном фонде русского языка хранится богатейший ма­териал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Акаде­мии Наук по инициативе А.П. Ершова в 1985 г.
---

«ком­пьютерная лексикография (термин теперь наиболее употребим),
вычислительная лексикография,
ма­шинная лексикография,
автоматическая лексикография,
автомати­зированная лексикография.»

«со­ставление полных или частичных конкордансов, т.е. "расписыва­ние" текста источника по выбранным словам или выписывание из текста иллюстративных примеров использования отобранных слов»

«Электронные словари не только содержат транскрипцию, но и могут произносить слова.»

«самое главное преимущество хороших электрон­ных словарей - одновременный поиск не только по названию сло­варной статьи, но и по всему огромному объему толкований слов­ника, что не представляется возможным в бумажном варианте.»

«ли­цензирование готовых словарей обходится очень дорого»

«унификация терминов и термино- систем, включающая в себя три вида - упорядочение, стандартиза­цию и гармонизацию терминов» (всегда не понимал, что это слово означает)

Отредактировано Лис (2020-10-17 20:20:40)

0

4

15–19 мая 2019 года в Минске прошла XIV Международная научная конференция «Современные проблемы лексикографии» (Lex 2019)

0

5

«Ожидалось, что электронные словари станут не просто введенными в компьютер бумажными словарями, снабженными удобными средствами поиска и отображения, а «особыми лексикографическими объектами, в которых могут быть реализованы многие продуктивные идеи, не востребованные по разным причинам в бумажных словарях». Так писал специалист в области компьютерного моделирования естественного языка и электронной лексикографии Владимир Селегей в известной статье "Электронные словари и компьютерная лексикография". Опубликован этот текст был более 15 лет назад.»
https://www.ng.ru/science/2018-03-14/13 … ncial.html

«Тайна возникновения "собственных баз данных" объемом в миллионы слов и словосочетаний в современных онлайн-словарях – это предмет отдельного исследования. Здесь я просто констатирую, что у этой интернет-медали две стороны: рай для потребителей и кошмар для правообладателей и продавцов книг.»

«трудно себе представить дальнейшую кропотливую работу смиренных энтузиастов-лексикографов, годами собирающих свои глоссарии, которые им НИ-ЧЕ-ГО не принесут. Ни денег, ни славы.»

«Во все времена даже самые объемные толковые и переводные словари составляли, как правило, индивидуально, а не коллективно.»

0


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » русский язык » Лексикография