25 сентября 2018 г.

Jardic. Итоги 2018

Количество пользователей онлайн-словаря увеличилось в полтора раза по сравнению с прошлым годом и сейчас достигает 300-400 человек в день. Количество покупателей программы Jardic Pro постоянно снижается, что ожидаемо.

Над чем шла работа:
* Расширение словаря Jardic
* Улучшение грамматического разбора (парсинга) японского текста
* Улучшение Jardic Pro

Расширение словаря Jardic
Для расширении словаря Jardic, главным образом, использую список слов словарей Edict и БЯРС. Для каждого слова я проверяю по Гугл'у частоту его использования. На данный момент слова, упомянутые в Гугле менее 100 тыс. раз можно считать незначительными. К сожалению, в БЯРС иногда приводятся слова и/или примеры, которые в Гугл'е (и в современном японском языке) вообще не встречаются, и наоборот, есть японские слова, которые в Гугле встречаются в миллионах статей, но отсутствуют в БЯРС. Значения конкретных слов перепроверяю по электронным версиям "Кодзиэн", "Weblio", "Eijiro", бумажным "Кэнкюся", "Коданся", "Сансэйдо", словарям поговорок и др. Отдельное спасибо г-ну Нобутоси Кохара, снабжающему меня последними версиями японских словарей. Новая лексика пополняется, главным образом, при чтении новостных статей NHK.

Улучшение парсинга японского текста
Пользователи Jardic-онлайн, часто вводят не отдельные слова, а фразы японского языка. Эти фразы подвергаются грамматическому разбору на отдельные слова и выражения с помощью специальных программ. В частности, так определяется прошедшее время глаголов. В этом году я расширил функции грамматического разбора для определения конструкций долженствования типа "накереба наранай", просьб "кудасай" и др. Алгоритмы парсинга японского текста являются довольно сложными и состоят из общих правил и списков исключений. В какой-то японской научной статье читал об около 700 исключениях в их системе (в их алгоритмах). У меня сейчас порядка 200 исключений, так что, есть еще над чем поработать :)

Улучшение Jardic Pro
В этом году улучшение Jardic Pro состояло в обновлении словаря Jardic, о чем сказано выше. Обновления выходили каждые 2-3 месяца.

Сравнение со Старшим братом
Отлаживая свои алгоритмы грамматического разбора, часто сравниваю полученные результаты с программами автоматического перевода Гугл'а и Майкрософт. Похоже, мне удается выдерживать конкуренцию. Иногда невозможно без смеха смотреть на их автоматический перевод японских фраз. Не буду приводить конкретные примеры. Как мне представляется, обе компании "сложили яйца" в корзину нейронных сетей, о чем они объявили пару лет назад. Типа, "будь, что будет". Имхо, им придется возвращаться к старой ручной работе. Посмотрим...
Сейчас популярна идея, что можно накопить все возможные переводы фраз и из них вытаскивать полезную информацию. Я тоже проводил эксперименты в этой области - пытался при переводе запрошенного текста найти максимально длинные совпадающие строки с фрагментами известных переводов. Оказалось, что большинство таких совпадений уже есть в примерах словарных статей. И сверх этого нет смысла искать что-либо еще. То есть, например, отдельная база переводов из 10 миллионов предложений не представляет особой практической ценности.

Перспективы
Удалось достичь (не смотря на жизнь не по ЗОЖ) среднего возраста россиянина. В течение следующих 5 лет, наверное, сделаю свои результаты свободно доступными. В частности, сделаю программу Jardic Pro бесплатной и опубликую программы сервера Jardic. Сейчас веб-сервер Jardic работает в домашней сети как самостоятельная программа. Надо будет переделать его как ISAPI dll. Чтобы все это просто так не исчезло. Надеюсь, кому-то это пригодится.

Постараюсь быть полезным для вас :)

9 комментариев:

Unknown комментирует...

Здравствуйте!
Уже больше года пользуюсь вашим ПО. По началу использовал Jardic Lite, потом стал использовать сайт, недавно же купил лицензионную версию. Большое спасибо Вам за Ваши старания, в Российском сегменте, как мне кажется, аналогов просто не найти! :)

Выскажу несколько предложений:
1) Хотелось бы, чтобы было добавлено больше переводов заимствованных слов в Японском языке (которые обычно пишутся катаканой). Например, недавно я столкнулся с весьма интересным словом - "ファーウェイ", самостоятельно перевести мне его не удалось, Ваш словарь, к сожалению тоже не смог найти перевод. Оказалось, что это "Huawei" (компания в сфере телекоммуникаций) - я это понял, вбив это слово в google translate. Так вот, я сталкиваюсь с такой проблемой уже не первый раз (имею в виду заимствованные слова). Было бы замечательно, если каким-то образом можно было бы добавить в словарь больше слов написанных катаканой. Кстати, английские аналоги вашего сайта тоже не смогли перевести это слово :) Конечно можно было бы и додуматься до значения этого слова, но "Фа:у~эи" у меня как-то слабо вяжется со словом "Хуавей")))

2) На счет приложения для смартфона - Вы в одном из постов писали, что ваша программа слишком громоздкая и переносить её на другую платформу будет слишком сложно, так вот, может быть сделать программу, которая будет посылать запрос на Ваш сайт, а потом просто выводить результат на экране смартфона в более удобном варианте (Конечно это потребует постоянного подключения к интернету, что не очень хорошо). Это без сомнений жуткие костыли, но я бы купил даже такую версию - иногда нужно срочно посмотреть значение какого-нибудь слова, а обращаться к google translate страшно :) Браузер же на телефоне не всегда хорошо работает...

Jardic комментирует...

Xavivore Aki, спасибо за приобретение словаря и за полезные советы!

Что касается собственных имен, то их лучше искать в словаре Enamdict. Название компании Huawei отсутствовало в прошлогодней версии этого словаря. По Вашей подсказке я выложил обновленную версию этого словаря и там Huawei есть. Вы можете обновить этот и другие словари Jardic Pro через соответствующее диалоговое окно. Там в правом списке надо выбрать строку нужного словаря, и нажать на кнопку "установить". Выложены также обновленные версии словарей Edict, Kanjidic и Jardic.

Ваша идея о приложении для смартфона, которое посылало бы запросы на сервер, интересная. Но вряд ли у меня будет время реализовать ее. Однако, если кто-то захочет написать такую программу, то я готов помочь: сделать для нее серверную часть. Сейчас веб-запросы Jardic обрабатывает специализированный веб-сервер, работающий под Windows. Можно добавить к этому серверу обработку запросов от такого приложения.

Unknown комментирует...

Я думаю вы вполне могли бы продавать этот продукт но он должен быть мультиплатформенный. Я уже лет 15 не использую Windows а в 90% случаев словарь мне нужен в смартфоне (Android в моем случае).
При просто обалденной базе слов и качестве парсинга сам продукт и сайт сильно устарели.

Спасибо.

Jardic комментирует...

>> Я думаю вы вполне могли бы продавать этот продукт но он должен быть мультиплатформенный.

Спасибо за комментарий. Скорее всего, Вы правы.
Может быть, Ваше мнение простимулирует и других программистов заняться разработкой программ для японского языка. Но на всякий случай предупрежу: тиражи неплохих книг по японскому языку обычно составляют 1000 экземпляров, и на полках книжных магазинов эти книги лежат месяцами и даже годами. То есть, на безусловную окупаемость рассчитывать не стоит :)

Hale комментирует...

Словарь бинарный плохо сделан. Поэтому и снижается. Сайт в свою очередь сделан хорошо. Главная пробелма бинарного словаря - ни у кого нет уверенности что после покупки он ен будет вылетать время от времени и вообще корячиться как демка. Хотя хочется иметь на компе постоянно под рукой жесткую версию.

Главное, бинарный позволяет загружать собсвтенные словари.

Для меня эталон словаря - это JWPCE для WinCE (под стилус). Вот он был удобен.

Jardic для PC к нему подтягивается... но много ненужных рудиментов от старых версий. Универсальный двусторнний текствоый поиск с морфологией и галочками опций (позаимствовано в JWPCE?) как на сайте решили бы все.

Зачем мне это надо? Работа. Вебсервисы в компании не комильфо, потенциальные утечки через строку поиска. Совсем плохо когда даже вайфай недоступен в изолированных комнатах.

Чего не хватает - умной сортировки статей по расположению целевого искомого слова в начале статьи, в списке вариантов, или в середине фразы. Русские словари лишены пометок, главные из них (P) (n) (v...) (na) - если бы словарь проверял канзёвое слово из руссокго словаря по соответствующему английскому и подставлял эти пометки - было бы круто. Пометки надо выводить цветом с расшифровкой рядом со статьей.

Jardic комментирует...

Hale, спасибо за конструктивные замечания! Постараюсь учесть.

Hale комментирует...

Кстати, идея на заметку - пропарсите связи словарных статей в Википедии на предмет соответствия. в 70% случаев там более актуальные соответствия переводов. навскидку 1-5% конечно мисы, или связь частного значения с общим понятием при переключении языка. Но все же.

Jardic комментирует...

Спасибо, Hale. Когда я добавляю в словарь новые слова, то обычно проверяю их значения по японской Википедии. К сожалению, это иногда напрягает, так как Википедия содержит не все значения и не понятно, являются ли отсутствующие значения неправильными (например, из русской статьи "уголь" нельзя понять, что такое "угли костра", а из японской статьи про кей-кар "軽自動車" не понятно, можно ли переводить это слово как "малолитражный автомобиль" (так переводит БЯРС) и т.п.) Кроме того японские статьи Википедии могут отсылать не на однозначно соответствующие русские статьи, а на более общие, или просто имеющие к этому какое-то отношение. Тем не менее, новые статьи я стараюсь проверять по японской Википедии, но полную проверку всего словаря делать пока не планирую.

Анонимный комментирует...

Огромное спасибо за сайт. И еще большее спасибо за подсветку и разбор грамматики при переводе фразы!

Отправить комментарий