25 сентября 2018 г.

Jardic. Итоги 2018

Количество пользователей онлайн-словаря увеличилось в полтора раза по сравнению с прошлым годом и сейчас достигает 300-400 человек в день. Количество покупателей программы Jardic Pro постоянно снижается, что ожидаемо.

Над чем шла работа:
* Расширение словаря Jardic
* Улучшение грамматического разбора (парсинга) японского текста
* Улучшение Jardic Pro

Расширение словаря Jardic
Для расширении словаря Jardic, главным образом, использую список слов словарей Edict и БЯРС. Для каждого слова я проверяю по Гугл'у частоту его использования. На данный момент слова, упомянутые в Гугле менее 100 тыс. раз можно считать незначительными. К сожалению, в БЯРС иногда приводятся слова и/или примеры, которые в Гугл'е (и в современном японском языке) вообще не встречаются, и наоборот, есть японские слова, которые в Гугле встречаются в миллионах статей, но отсутствуют в БЯРС. Значения конкретных слов перепроверяю по электронным версиям "Кодзиэн", "Weblio", "Eijiro", бумажным "Кэнкюся", "Коданся", "Сансэйдо", словарям поговорок и др. Отдельное спасибо г-ну Нобутоси Кохара, снабжающему меня последними версиями японских словарей. Новая лексика пополняется, главным образом, при чтении новостных статей NHK.

Улучшение парсинга японского текста
Пользователи Jardic-онлайн, часто вводят не отдельные слова, а фразы японского языка. Эти фразы подвергаются грамматическому разбору на отдельные слова и выражения с помощью специальных программ. В частности, так определяется прошедшее время глаголов. В этом году я расширил функции грамматического разбора для определения конструкций долженствования типа "накереба наранай", просьб "кудасай" и др. Алгоритмы парсинга японского текста являются довольно сложными и состоят из общих правил и списков исключений. В какой-то японской научной статье читал об около 700 исключениях в их системе (в их алгоритмах). У меня сейчас порядка 200 исключений, так что, есть еще над чем поработать :)

Улучшение Jardic Pro
В этом году улучшение Jardic Pro состояло в обновлении словаря Jardic, о чем сказано выше. Обновления выходили каждые 2-3 месяца.

Сравнение со Старшим братом
Отлаживая свои алгоритмы грамматического разбора, часто сравниваю полученные результаты с программами автоматического перевода Гугл'а и Майкрософт. Похоже, мне удается выдерживать конкуренцию. Иногда невозможно без смеха смотреть на их автоматический перевод японских фраз. Не буду приводить конкретные примеры. Как мне представляется, обе компании "сложили яйца" в корзину нейронных сетей, о чем они объявили пару лет назад. Типа, "будь, что будет". Имхо, им придется возвращаться к старой ручной работе. Посмотрим...
Сейчас популярна идея, что можно накопить все возможные переводы фраз и из них вытаскивать полезную информацию. Я тоже проводил эксперименты в этой области - пытался при переводе запрошенного текста найти максимально длинные совпадающие строки с фрагментами известных переводов. Оказалось, что большинство таких совпадений уже есть в примерах словарных статей. И сверх этого нет смысла искать что-либо еще. То есть, например, отдельная база переводов из 10 миллионов предложений не представляет особой практической ценности.

Перспективы
Удалось достичь (не смотря на жизнь не по ЗОЖ) среднего возраста россиянина. В течение следующих 5 лет, наверное, сделаю свои результаты свободно доступными. В частности, сделаю программу Jardic Pro бесплатной и опубликую программы сервера Jardic. Сейчас веб-сервер Jardic работает в домашней сети как самостоятельная программа. Надо будет переделать его как ISAPI dll. Чтобы все это просто так не исчезло. Надеюсь, кому-то это пригодится.

Постараюсь быть полезным для вас :)