Это блог японско-русского словаря Jardic.
Сообщения блога касаются словаря Jardic и разных тем, имеющих отношение к японскому языку и японской культуре.

13 ноября 2022 г.

Jardic - отзывы, замечания, пожелания

Вы можете написать в качестве комментария ваш отзыв о Jardic, сообщение об обнаруженной ошибке или пожелания, касающиеся развития словаря и его программного обеспечения.

11 ноября 2020 г.

Японский язык на YouTube

Меня всегда интересовали учебные видеоролики по японскому языку, подготовленные самими японцами. Еще лет 10 назад таких роликов в интернете было не очень много. Сейчас же (2020 год) их количество в YouTube исчисляется тысячами. У меня возникло желание как-то классифицировать эти ролики и выложить ссылки на них. Сейчас в моих файлах Excel, сделанных с помощью специальной программы, накоплено несколько тысяч таких ссылок. Страницы со ссылками на эти ролики под названием "Японский язык на YouTube" я начал выкладывать на своем сайте. Собираюсь продолжить эту работу, выкладывая примерно по 1 странице в неделю. Надеюсь, ссылки на эти видеоролики будут полезны для тех, кто изучает японский язык.

12 сентября 2020 г.

Jardic Pro 9.1

Вчера выложил новую версия словаря Jardic Pro 9.1 (страница загрузки). В этой версии наконец добавлена возможность перевода слов под курсором в Google Chrome и Microsoft Edge. До этого такая возможность была лишь для Microsoft Word и Internet Explorer. Сделать это удалось благодаря тому, что недавно (узнал об этом неделю назад) движок Chromium стал обеспечивать полноценную поддержку программного интерфейса IAccessible2 включая IAccessibleText. Надеюсь, что функция перевода слов под курсором в Chrome и Edge понравится многим пользователям Jardic Pro.

10 сентября 2020 г.

О Сведенборге

Из множества религиозных учений мне ближе всего учение христианского мистика Эммануила Сведенборга (Швеция, 1688-1772). В России XIX века он был достаточно известен. К нему с уважением относились многие наши писатели, в том числе Пушкин и Достоевский. Но тогда в школах еще преподавали латинский язык, на котором Сведенборг писал свои работы. Сейчас на латыни никто читать не может, а переводы Сведенборга на русский язык не всегда адекватны, а иногда приводят в ужас. Очень хотелось бы, чтобы идеи Сведенборга стали в России более известными. В качестве маленького вклада в распространение идей Сведенборга моя заметка "Influxus amoris".

13 февраля 2020 г.

GCPlayer

Этот пост не имеет отношение к теме сайта, то есть к японскому языку :-)
 
В прошлом году я впервые познакомился с идеями Симона Эльевича Шноля, изложенными в его работе "Космофизические факторы в случайных процессах". Книга произвела сильное впечатление и возникло желание повторить эксперименты самостоятельно. Но непонятно было, где взять аппаратный датчик случайных величин. Самостоятельно сделать его было нереально, несмотря на мое образование электронщика. Работой Шноля интересовались многие, и его команда могла бы наладить производство "конструктора" с соответствующим софтом, но они этого не делали. В результате решил попробовать поработать с данными проекта GCP ("Глобальное сознание"). С идеями этого проекта я был знаком давно, еще с 1982 года, когда в научном журнале "IEEE Proceedings" была опубликована подборка статей по парапсихологии (копия есть на сайте ЦРУ :-) ). Симон Эльевич писал, что данные GCP подтверждают результаты его исследований.
 
Судя по словам Симона Эльевича, главным камнем преткновения, из-за чего к его работе относились с сомнением, была субъективная оценка сходности гистограмм. Решать, похожи гистограммы или нет, мог только подготовленный эксперт, и этот процесс не поддавался полной автоматизации. У меня возникла идея заменить гистограммы какими-то другими образами. Так как гистограммы походили на спектр, то можно было связать их со звуковым спектром (аккорды) или с цветовым спектром (особые цвета).
В общем, за пару дней я написал простую программу, которая генерировала аккорды из случайных звуков. Обсудить результат с коллегами Симона Эльевича было нереально, так как их контактные данные невозможно найти. Поэтому я сообщил о программе Роджеру Нельсону, одному из организаторов проекта GCP, адрес которого нашел на их сайте. Он сразу ответил, что это интересно. Осталось сделать к программе пользовательский интерфейс, на что ушло около месяца. Попутно появились другие идеи относительно использования цвета и звука, которые удалось реализовать. Добавил еще гексаграммы Ицзин. Дело в том, что между гистограммами распределения и гексаграммами Ицзин есть определенное родство: и то и другое это - цельные образы, созданные с использованием случайных величин. В результате получилась программа GCPlayer.
 

 
И вот, пришло время проверить идеи изложенные в книге. Казалось, все просто: открывай книгу на странице 344, где написано про GCP, и перепроверяй гистограммы для солнечного затмения 8 апреля 2005 года. Но тут-то и начались проблемы. В книге упоминалось "расчетное время затмения" без указания конкретной величины в секундах. Пришлось искать это время в других источниках, при этом сомневаясь, а то ли это время. Говорилось, что гистограммы совпадают с точностью до полминуты, но полминуты в ту и другую стороны - это 60 секунд и столько же гистограмм, которые придется рассматривать. Для гистограмм в книге не приводился алгоритм сглаживания, размер окна сглаживания (мог быть от одного до 15 и выше) и количество проходов (также от 1 до 30). Но форма сглаженных гистограмм очень сильно зависит от этих факторов. Кроме того, в книге приводились гистограммы для смежных 30-секундных промежутков времени (подтверждающих "эффект ближней зоны"), гистограммы же для 2-й, 3-й, и т.д. секунд игнорировались. На практике же оказалось, что гистограмма для 1-й секунды не переходит плавно в гистограмму для 30-й секунды, а она при этом живет свой "активной жизнью". В результате перепроверка результатов оказалась невозможной. Это конечно, не опровержение результатов исследования влияния космофизических факторов, но разочарование возникло. Хотя, с другой стороны, глядя на меняющиеся гистограммы, которые показывает программа, и слушая "звуки ноосферы" (выражение Роджера Нельсона) появляются другие идеи относительно наличия закономерностей, но это уже другая история :-)

30 сентября 2019 г.

Метод построения линий гексаграмм «Ицзина» с помощью колоды игральных карт

Эта заметка для тех, кто знает, что-такое гадание по «Ицзину» и как строятся линии гексаграмм классическим способом: с помощью 50 стеблей тысячелистника, отсчитыванием по 4 стебля и т.д.

Пытаясь заменить стебли тысячелистника колодой из 50 (по числу стеблей) игральных карт, и анализируя различные варианты раскладки, я пришел к следующему алгоритму получения линий гексаграмм:

1. Берется колода из 52 карт (можно 36, главное, чтобы карты всех мастей были в равном количестве). Мы будем накапливать некоторую «Сумму», по которой определится тип очередной линии.
2. Сдвигаем колоду (делим на 2 части) и смотрим масть карты, которую сдвинули. Если это «черви», то считаем, что Сумма = 2, иначе Сумма = 1.
3. Сдвигаем колоду 2-й раз и смотрим масть карты. Если она «красная», то прибавляем к сумме 1.
4. Сдвигаем колоду 3-й раз и смотрим масть карты. Если она «красная», то прибавляем к сумме 1.
5. По итогам суммирования определяем тип линии:
Сумма = 1 – это «старый ян» (9, --ø--)
Сумма = 2 – это «молодая инь» (8, -- --)
Сумма = 3 – это «молодой ян» (7, -----)
Сумма = 4 – это «старая инь» (6, --x--)

В общем, суть предложенного метода заключается в получении 3-х случайных чисел и последующей проверке делимости первого числа на 4 и двух других на 2. Фишка в том, что если рассчитать вероятности построения черт этим методом, то она получится такой же, как и для классического метода с использованием 50 стеблей (3/16, 7/16, 5/16, 1/16), что лучше, чем для метода «трех монет». Причем, по затратности, предлагаемый метод примерно такой же, как и для «трех монет».

Технически этот метод может быть реализован не только с помощью карт, но и множеством других способов, например: с использованием окрашенных (помеченных) бус, с использованием игральных кубиков, с помощью игральной рулетки, с помощью окрашенных (помеченных) фишек (камней, палочек), путем открытия книги на случайной странице, с помощью генератора случайных чисел, с использованием даты и времени и т.д. Описанная выше реализация этого метода с помощью игральных карт требует минимального количества телодвижений и поэтому является самой простой.

Пока непонятно, изобрел ли я велосипед, т.е. этот метод уже давно придуман, или он, действительно, является новым.

25 сентября 2018 г.

Jardic. Итоги 2018

Количество пользователей онлайн-словаря увеличилось в полтора раза по сравнению с прошлым годом и сейчас достигает 300-400 человек в день. Количество покупателей программы Jardic Pro постоянно снижается, что ожидаемо.

Над чем шла работа:
* Расширение словаря Jardic
* Улучшение грамматического разбора (парсинга) японского текста
* Улучшение Jardic Pro

Расширение словаря Jardic
Для расширении словаря Jardic, главным образом, использую список слов словарей Edict и БЯРС. Для каждого слова я проверяю по Гугл'у частоту его использования. На данный момент слова, упомянутые в Гугле менее 100 тыс. раз можно считать незначительными. К сожалению, в БЯРС иногда приводятся слова и/или примеры, которые в Гугл'е (и в современном японском языке) вообще не встречаются, и наоборот, есть японские слова, которые в Гугле встречаются в миллионах статей, но отсутствуют в БЯРС. Значения конкретных слов перепроверяю по электронным версиям "Кодзиэн", "Weblio", "Eijiro", бумажным "Кэнкюся", "Коданся", "Сансэйдо", словарям поговорок и др. Отдельное спасибо г-ну Нобутоси Кохара, снабжающему меня последними версиями японских словарей. Новая лексика пополняется, главным образом, при чтении новостных статей NHK.

Улучшение парсинга японского текста
Пользователи Jardic-онлайн, часто вводят не отдельные слова, а фразы японского языка. Эти фразы подвергаются грамматическому разбору на отдельные слова и выражения с помощью специальных программ. В частности, так определяется прошедшее время глаголов. В этом году я расширил функции грамматического разбора для определения конструкций долженствования типа "накереба наранай", просьб "кудасай" и др. Алгоритмы парсинга японского текста являются довольно сложными и состоят из общих правил и списков исключений. В какой-то японской научной статье читал об около 700 исключениях в их системе (в их алгоритмах). У меня сейчас порядка 200 исключений, так что, есть еще над чем поработать :)

Улучшение Jardic Pro
В этом году улучшение Jardic Pro состояло в обновлении словаря Jardic, о чем сказано выше. Обновления выходили каждые 2-3 месяца.

Сравнение со Старшим братом
Отлаживая свои алгоритмы грамматического разбора, часто сравниваю полученные результаты с программами автоматического перевода Гугл'а и Майкрософт. Похоже, мне удается выдерживать конкуренцию. Иногда невозможно без смеха смотреть на их автоматический перевод японских фраз. Не буду приводить конкретные примеры. Как мне представляется, обе компании "сложили яйца" в корзину нейронных сетей, о чем они объявили пару лет назад. Типа, "будь, что будет". Имхо, им придется возвращаться к старой ручной работе. Посмотрим...
Сейчас популярна идея, что можно накопить все возможные переводы фраз и из них вытаскивать полезную информацию. Я тоже проводил эксперименты в этой области - пытался при переводе запрошенного текста найти максимально длинные совпадающие строки с фрагментами известных переводов. Оказалось, что большинство таких совпадений уже есть в примерах словарных статей. И сверх этого нет смысла искать что-либо еще. То есть, например, отдельная база переводов из 10 миллионов предложений не представляет особой практической ценности.

Перспективы
Удалось достичь (не смотря на жизнь не по ЗОЖ) среднего возраста россиянина. В течение следующих 5 лет, наверное, сделаю свои результаты свободно доступными. В частности, сделаю программу Jardic Pro бесплатной и опубликую программы сервера Jardic. Сейчас веб-сервер Jardic работает в домашней сети как самостоятельная программа. Надо будет переделать его как ISAPI dll. Чтобы все это просто так не исчезло. Надеюсь, кому-то это пригодится.

Постараюсь быть полезным для вас :)