В Казахстане презентовали инвестиционный и туристический потенциал Якутии
18 апреля, 21:00
Глава Якутии встретился с Президентом Республики Казахстан 
18 апреля, 19:10
Дни Якутии в Республике Казахстан открылись в Астане
18 апреля, 18:40
"Виртуозы Якутии" открыли Дни Республики Саха в Казахстане
18 апреля, 18:20
Эти продукты помогут восполнить железо в организме
18 апреля, 18:00
В Якутии продолжается оказание мер поддержки участникам СВО и их детям
18 апреля, 17:00
В Якутии расследуют уголовное дело о хищении денег участника СВО
18 апреля, 16:58
В Якутии ранее судимый мужчина вернется в колонию за убийство приятеля
18 апреля, 16:50
Пассажиров не было внутри самолета во время наезда спецтранспорта - АК "Якутия"
18 апреля, 16:27
В Якутии пассажиропоток на железнодорожном транспорте вырос почти на 12%
18 апреля, 16:20
В Якутии дочери участника СВО помогли получить первую профессию
18 апреля, 16:00
Аналитика ВТБ: Россияне увеличили траты на здоровье и спорт на 20%
18 апреля, 15:40
В аэропорту Якутска автомобиль повредил самолет
18 апреля, 15:38
Хабаровский школьник победил во Всероссийской олимпиаде по обществознанию
18 апреля, 15:30
Чистоту Хабаровска обсудили мэр и депутаты краевой и городской думы
18 апреля, 15:00
В Казахстане презентовали инвестиционный и туристический потенциал Якутии 18 апреля, 21:00
Глава Якутии встретился с Президентом Республики Казахстан  18 апреля, 19:10
Представители Якутии выпустились во втором потоке программы "Муравьев-Амурский 2030" 18 апреля, 15:00
В топ-20 популярных подержанных авто впервые вошли китайские модели - банк "Открытие" 18 апреля, 14:15
Глава Якутии обсудил проект "Синергия Арктики" с президентом "Ростелекома" 18 апреля, 11:00
Кредитный рейтинг банка "Открытие" на уровне ruAA подтвердил "Эксперт РА" 18 апреля, 10:20
Объем добычи угля в Якутии вырос на треть с начала 2024 года 18 апреля, 10:00
Экспорт грузовиков, легковушек и запчастей из Японии в Россию стремительно падает 18 апреля, 08:10
20 млн россиян воспользовались мобильными сервисами Сбера по противодействию мошенникам 17 апреля, 18:30
Айсен Николаев и Галина Данчикова обсудили реализацию поручений Президента России в Якутии 17 апреля, 15:40
На рынок вышли умные телевизоры с miniLED-дисплеями линейки Sber Line S 17 апреля, 15:20
Посетить магазины МТС в Якутии можно с домашними животными 16 апреля, 11:36
"Муравьев-Амурский 2030": состоялся выпуск второго потока будущих госуправленцев регионов ДВ 16 апреля, 11:15
МТС оцифровала строящийся аэропорт в Мирном 15 апреля, 11:55
Две обогатительные фабрики Колмар с 12 марта приостановили работу в Якутии 15 апреля, 10:22

От оцифровки – к искусственному интеллекту. В Якутии создадут Корпус якутского языка

В прошлом году увидел свет 15-й том Большого толкового якутского словаря
15 февраля 2020, 12:00 Общество
Виталий Бочкарев Газета "Якутия"
Виталий Бочкарев
Фото: Газета "Якутия"

В прошлом году увидел свет последний, 15-й, том Большого толкового якутского словаря, работа над которым продолжалась почти полвека, после чего глава Якутии Айсен Николаев дал поручение сделать его оцифровку. Сейчас это богатство – 80 тысяч слов! – доступно каждому. Но работа продолжается, и об этом газете "Якутия" рассказал сотрудник Института гуманитарных исследований и проблем малочисленных народов Севера СО РАН Василий Бочкарев, сообщает ИА YakutiaMedia со ссылкой на ЯСИА.


Прообраз будущего

– Сейчас мы работаем над созданием базы Большого толкового якутского словаря (БТСЯЯ), который также является базой для будущего Корпуса якутского языка, куда будут включены примеры из художественной литературы, публицистики, устной речи и фольклора.

Сам словарь, изданный под руководством П.А. Слепцова и В.Д. Монастырева, получился логически хорошо продуманным, и посему работа над созданием электронного варианта идет довольно легко. Единственная сложность – большой объем информации.

– Это же все богатство нашего языка!

– Как я уже сказал, данный словарь – прообраз будущего электронного Корпуса якутского языка. От всех прочих ранее созданных он отличается расширенной функциональностью, что дает лингвисту простор для исследовательской работы: за несколько минут можно создать свой собственный оригинальный словарь для определенных целей и задач.

Для расширения возможностей в состав программы дополнительно внесены материалы других словарей – скажем, фразеологические словари Анатолия Гаврильевича Нелунова и Никиты Спиридоновича Григорьева, малый словарь Алексея Елисеевича Кулаковского-Ексекюляха…

"Он оказался универсальным"

– За образец мы взяли Национальный корпус русского языка, считающийся лучшим в мире. В него включены, скажем, и образцы подростковой речи, и творчество современных писателей – например, Евгения Гришковца.

– Еще и подростковой речи, надо же.

– Помимо этого, мы с директором Института языков и культуры народов Северо-Востока РФ СВФУ Гаврилом Торотоевым разрабатываем программу морфологических анализаторов – шаг к созданию искусственного интеллекта, думающего на якутском, поскольку именно морфологический анализ позволит компьютеру понять смысл слова.

Но вот что интересно: алгоритм морфологического анализатора мы создали единственно под якутский язык, но, к нашему большому удивлению, он оказался универсальным и отлично подходит, скажем, под киргизский язык. Этим фактом очень заинтересовался доктор филологических наук Ибраим Абдувалиев из Института языка и литературы Национальной академии наук Кыр— гызстана. Мы уже попробовали с ним адаптировать программу. Думаю, эта работа продолжится, и, возможно, наш анализатор станет универсальной международной платформой.

– Тьфу-тьфу-тьфу, чтоб не сглазить!

Компьютерная лингвистика: догнать и перегнать

– Недавно, осенью 2019 года, я был в командировке в Уфе, чтобы ознакомиться с опытом коллег по созданию корпуса языка и машинного фонда. Башкиры свой машинный фонд давно создали, хотя их там всего четверо, но это настоящие фанаты своего дела. Руководит ими Зиннур Амирович Сиразитдинов – это просто какой-то неутомимый двигатель науки, благодаря ему появилась и встала на ноги башкирская компьютерная лингвистика. Можно сказать, это уже целая школа. Татары, взяв с них пример, стали в компьютерной лингвистике лучшими из всех тюркских народов России.

Мы же начали всего года полтора назад – по инициативе нашего директора Натальи Иннокентьевны Поповой. Отстаем пока прилично – коллеги из других регионов и стран уже больше десяти-двадцати лет этим занимаются, а некоторые – более полувека, но, думаю, нам удастся быстро наверстать.

– Их опыт вам на пользу.

– Кстати, машинный фонд будет создан и для эвенского, эвенкийского, юкагирского языков. Когда у нас появится свой сервер, мы начнем загружать на него словари, потом настанет черед вводить их в машинный фонд, а это уже не только словари, но и терминология, труды учёных, примеры из литературы.

Богатства машинного фонда

– В якутский машинный фонд, например, загружены консолидированные словари, терминологические, якутско-русский переводчик, якутско-казахский, который появился даже раньше якутско-русского, потому что это родственный нам язык, с ним намного легче работать, и мы его взяли за образец. Со временем появятся остальные переводчики.

– Какие?

– Время покажет. Сейчас мы работаем над фольклорным корпусом, откуда можно брать любые отрывки, в отличие от, скажем, художественной литературы или публицистики, где действует авторское право и связанные с ним сложности.

Но так как институт у нас довольно большой, время от времени в разных его отделах созревают разные интересные проекты и работы, которые бывает невтерпеж оцифровать в тот же день. Недавно сын Багдарыына Сюлбэ Ньургун принес материалы по топонимике, это очень интересная и очень ценная для народа и науки работа. Их мы включим в состав программы БТСЯЯ и Корпуса.

Во имя науки

– А когда вы вообще заинтересовались этим делом?

– Ещё в школе. Прочел статью в газете, как всем нам известный Word переводят на якутский. Мне стало интересно, а тут как раз на Президентской ёлке мне подарили компьютер.

– За заслуги в области лингвистики?

– Нет, физики. Два года подряд я занимал 1-2 места на научно-практической конференции "Шаг в будущее", за что спасибо моей руководительнице Зое Петровне Алексеевой. Но и в литературных конкурсах тоже участвовал.

– И физик, и лирик!

– В школе – Тумульской средней школе Усть-Алданского района – у меня были очень сильные учителя по якутскому языку: Татьяна Петровна Находкина, Акулина Степановна Сокольникова, Нюргуяна Коммунаровна Барашкова. А статья про якутизацию Wordа, о которой я говорил выше, так меня "зацепила", что я сам начал проводить похожие эксперименты на компьютере.

– И к чему они привели?

– Компьютер сломался.

– Пал жертвой во имя науки.

"Присматриваем кадры"

– Позже, учась на факультете якутской филологии, я занялся разработкой своего сайта, который назвал "Эйгэ" ("среда, окружающее пространство"). Но он был посвящен не только якутскому языку, там были эвенский и эвенкийский подразделы.

– Значит, вы ещё студентом определились, чем собираетесь заниматься в будущем.

– А я и сейчас студент. Получаю второе высшее, вернее, заканчиваю заочно физический факультет СВФУ по специальности "учитель физики и информатики".

– Вот все и встало на свои места. А в вашем отделе каждый сотрудник – лингвист-технарь?

– Отдела как такового пока нет, но кадры мы уже присматриваем. В наш будущий отдел хотелось бы набрать людей, похожих на тех, с которыми я познакомился в Уфе, – с горящими глазами.

1581757200