Как узнать язык?

Автоматические определители языков

Главная → Автоматические определители языков Иногда мы сталкиваемся с текстом на незнакомом нам языке. Стандартные способы определения языка не помогают. Как узнать, на каком языке он написан? В этом вам помогут автоматические определители языков.

Как работает определитель языка (guesser)

Автоматический определитель языка называют иногда guesser. Он позволяет по введенным нескольким словам определить язык, на котором они написаны. Технически, определение языка реализуется при помощи словаря.
Введенный текст разбивается на слова, и они сравниваются со словами из базы определителя. В результате подсчитывается количество совпадений слов разных языков, и выводится отчет в виде названия одного языка или списка языков, которые были признаны наиболее подходящими.
Однако, работа автоматического определителя языка не так проста: система должна учитывать лексические особенности языков, правила построения предложений, различия в диалектах, и другие особенности. Поэтому, сервисы автоматического определения языка предоставляются обычно разработчиками систем машинного перевода. Результат определения языка не может быть 100% точным. Обычно определитель языка также сообщает, с какой вероятностью ему удалось определить язык. Чем больше символов текста вы укажете, тем более точным будет определение. Для вашего удобства на этой странице мы собрали несколько таких систем, каждая из которых работает по своему алгоритму. Отправить запрос на определение языка не составит труда, достаточно ввести текст в одну из представленных на странице форм.

Бесплатный определитель языка онлайн

Здесь вы можете определить язык любого текста. Укажите небольшой фрагмент текста (не более 500 символов), язык которого требуется определить. Распознавание языка введенного текста осуществляется специальным алгоритмом онлайн-сервиса переводов. То есть это не совсем определитель языка, а онлайн-переводчик, в котором не указан язык исходного текста. В процессе перевода язык будет определен автоматически, вы увидите его название в поле слева сверху (рядом с надписью Определен автоматически).

Автоматический определитель языка от WhatIsLanguage

Если при определении языка возникают проблемы с кодировкой, попробуйте вводить текст непосредственно на официальной странице сервиса.

Автоматический определитель языка от Xerox

Определитель языка от Xerox основан на экспериментальных разработках компании. Кроме определения языка система также также распознает кодировку. Эффективность определения языка этой системой — высокая. Поддерживаются большинство распространенных языков мира.

Автоматический идентификатор языка Translated Labs

Определитель языка разработан исследовательским центром Translated Labs (T-Labs), который занимается изучением семантики языков и разработкой языковых моделей для создания автоматизированных комплексов по работе с информацией: поисковых систем, систем анализа данных, систем машинного перевода.

Автоматический распознаватель языка Talenknobbel

Экспериментальный проект по созданию системы идентификации языка любого текста, в данный момент на сайте представлена уже вторая версия системы Talenknobbel v2.0. При анализе текста используется статистический метод, текст разбивается на слова, которые затем ищутся в словаре. Чем больше найдется совпадений, тем более точным будет результат. Следует учесть, что в словаре присутствуют только наиболее распространенные слова, поэтому для сложных текстов идентификация может быть неточной. Если при определении языка возникают проблемы с кодировкой, попробуйте вводить текст непосредственно на официальной странице сервиса Talenknobbel.

Как повысить правильность определения языка

При использовании систем автоматического определения языка текста необходимо знать некоторые особенности:

  • Текст должен состоять из не менее чем 20-ти слов (чем больше, тем лучше).
  • Проверяйте текст на ошибки перед определением языка.
  • Вводите в определитель ту часть текста, которая позволит эффективнее определить язык (например, слова с присутствием нестандартных букв, надстрочных и подстрочных символов, и т.д.).
  • Для более точного результата воспользуйтесь несколькими сервисами.

Автоматический определитель языка TextCat

Определитель языка TextCat — реализация алгоритма классификации текста (W. B. Trenkle и J. M. Trenkle, «N-Gram-Based Text Categorization»), который был представлен на третьем ежегодном симпозиуме по технологиям анализа документов и поиска информации, проходившем в Лас-Вегасе в апреле 1994 года. Определитель поддерживает 69 языков. К сожалению, онлайн-версия определителя больше недоступна, но вы можете детально ознакомиться с проектом и получить исходные коды алгоритма на его официальной странице.

Автоматический определитель языка Verbix

Определитель языка создан независимой некоммерческой организацией Verbix, основной деятельностью которой является сохранение языкового разнообразия на нашей планете. Множество языковых инструментов доступно на официальной странице Verbix.

Определитель языка Полиглот 3000 (программа для Windows)

Разработчик: Likasoft
Тип лицензии: Freeware
Требования: 95/98/NT/ME/2000/XP/Vista

Полиглот 3000 — это уникальный автоматический определитель языка, предназначенный для быстрого и корректного ответа на вопрос: «На каком языке написан текст?». Программа распознает более 400 языков, быстро и качественно определяет язык введенного текста, имеет многоязычный интерфейс. Программа бесплатна, и будет полезна всем, кто постоянно сталкивается с иностранными языками или часто задает вопрос «Какой это язык?».

Как определить язык текста?

Если вы столкнулись с текстом на незнакомом вам языке, и если у вас возник вопрос «Какой это язык?», можно попробовать определить его самостоятельно. Это не так уж и сложно. В каждом языке есть свои определенные особенности, которые помогают его распознать: набор знаков, подстрочных и надстрочных символов, направление письма, и пр. Наверняка вы без труда сможете распознать основные языки.
Вы также можете просто воспользоваться одним из автоматических определителей языка. В этом случае от вас вообще не требуется никаких усилий, достаточно просто вставить текст в определитель.
Определить, на каком языке написан текст, может потребоваться, например, для того, чтобы воспользоваться онлайн-переводчиком. Некоторые переводчики умеют самостоятельно определять язык, но большая часть из них требуют указания языка вручную. Для автоматического определения языка текста онлайн-переводчиком следует или выбрать в качестве исходного языка вариант Автоматически или просто не указывать его вовсе (в зависимости от системы).


Глобализация наступает. В любой момент Вы можете столкнуться со строкой текста, написанном на языке, который Вы не то что не знаете, но даже идентифицировать его будете не в состоянии.

Впрочем, сделать это, как правило, не сложно. Этот ответ услужливо дадут один-два символа, характерные только для данного языка, и ни для какого другого.

О языках, использующих кириллицу мы в этой статье говорить не будем. Но у тех языков, которые пользуются латинской письменностью, для звуков, которые встречаются только в данном языке, используются уникальные символы или комбинации символов, которые помогут однозначно определить сам неизвестный язык.

Что это за символы?

Ã, ã: это почти наверняка португальский язык. Если, к тому же, язык этот похож на испанский, со 100%-ной вероятностью португальский язык. Пример: São Paulo

Ă, ă: A с «чашечкой» сверху встречается только в румынском языке и во вьетнамском. Но во вьетнамском короткие слова. Для подтверждения того, что перед Вами румынский текст, поищите в нем символы Ţ / ţ и Ş / ş (T и S с запятой внизу).

Ő, ő; Ű, ű: «Ежики» над этими гласными буквами – верный признак венгерского языка. Кроме того, в тексте довольно часто встречается сочетание gy ризнак венгерского – почти все слова непонятны, и то и дело встречаются довольно длинные слова. Например, megszentségteleníthetetlenség – эта черта не может быть осквернена.

Ř, ř: Этот звук, средний между Р и Ж, существует только в чешском языке. Другая отличительная буква, встречающаяся только в чешском языке Ů / ů. Ну, и наконец, если то и дело встречаются слова, похожие на русские, значит 100% чешский.

Другой славянский язык, польский, имеет уникальный звук, обозначаемый буквой Ł, ł: Łódź. Буква эта похожа на Л, но читается, как английская W, Уодзь. В польском языке слов, похожих на русские еще больше, чем в чешском.

I, ı; İ, i: В турецком тексте Вы встретите оба варианта буквы I, с точкой и без точки. Это два разных звука, Ы и И. Столица Турции – İstanbul, Истанбул. Еще в турецком языке есть буква ğ. Эта буква пишется, но не произносится. Например, Erdoğan – Эрдоан, а не Эрдоган.

Å, å: Те, кто изучал физику, узнают эту букву. Так обозначается единица длины «ангстрём». Эта буква есть во всех скандинавских языках: норвежском, датском и шведском. Как различить эту веселую троицу? Если Вы найдете в тексте еще ø и æ – это норвежский или датский. Если отыщете ö и ä – это шведский язык. Как отличить датский от норвежского? Ищите в тексте сдвоенную букву а: aa (как в фамилии известного датского философа Кьеркегора (Kierkegaard). У норвежцев нет такого звука и такого обозначения этого звука.

Есть еще два скандинавских языка, исландский и фарерский. Оба используют буквы Ð, ð; Þ, þ для обозначения звука, который в современном английском обозначается сочетанием th. Фарерский язык – достаточно редкий, так что указанные буквы почти наверняка – признак исландского. Но если хотите точности определения – в фарерском встречается буква ø, в исландском вместо нее используют ö (jökull, «ледник»).

Язык состоит из коротких слов и почти над каждой гласной есть акцент или «чубчик»? Это вьетнамский язык. Пример из Википедии:

Hà Nội là thủ đô của nước Cộng hoà Xã hội chủ nghĩa Việt Nam và cũng là kinh đô của rất nhiều vương triều Việt cổ.

Ханой является столицей Социалистической Республики Вьетнам, а также является столицей многих древних вьетнамских династий.

Ñ, ñ а также перевернутые вопросительный и восклицательный знаки (¡No pasaran!) присутствуют только в испанских текстах. Если слова в тексте вроде бы испанские (или французские), но часто встречаются буквы X / x – это каталанский язык. Эту редчайшую в испанском букву каталонцы используют для обозначения звука Ш.

В немецком языке используются гласные буквы с умлаутами Ä / ä, Ö / ö и Ü / ü. Кроме того, в немецком тексте довольно часто встречаются длинные слова, а также артикли der, die и das. В голландском языке встречаются сдвоенные гласные буквы (их используют для обозначения длинных звуков) и «сладкая парочка» ij (читается, как «ай»)

Кельтские языки (ирландский, шотландский гэльский и валлийский) характеризуются длинными словами. В ирландском и шотландском в тексте часто встречаются двухбуквенные сочетания согласных: bh, ch, dh, fh, gh, mh, ph, sh и th. Только ирландцы и шотландцы знают, как эти сочетания произносятся. Акцентированные гласные используются в обоих языках, но только в шотландском есть акценты, направленные в левую сторону, как, например, à в Gàidhlig.

Валлийский язык сильно отличается от других кельтских «братьев». В нем много сдвоенных букв ll и ff, а буква w является гласной (например, cwm).

Унгро-финские «братья», финский и эстонский. В текстах на этих языках трудно распознать даже «международные» слова. В финском языке могут встретиться очень длинные слова, например «moottoripyöräonnettomuus», «мотоциклетная авария». Сдвоенные гласные в этих языках – обычное дело.

Как отличить текст на эстонском языке от финского текста? В эстонском языке есть слова, оканчивающиеся на b или g, а также символ õ. Ну, и конечно, если Вам повезло, можно обнаружить самоназвания: у финнов Suomi, у эстонцев – Eesti.

В албанском языке используются буквы c и q, а также сочетание xh. В тексте на албанском языке можно встретить букву ë (например столица Албании Тирана пишется Tiranë). Албанский язык абсолютно не похож ни на один европейский. Самоназвание страны – Shqipëria.

Хорватский язык похож на русский еще сильнее, чем чешский и польский. В нем есть буква Đ / đ для обозначения звука «дж». Для смягчения звуков Л и Н используется буква j: Nj = Нь, Lj = Ль.

Если Вы знакомы с украинским языком, то без труда прочтете почти любую надпись на словацком языке. Эти языки очень близки.

Вообще задача определения современного языка по небольшому отрывку текста на этом языке, разрешима всегда. У каждого языка есть характерные признаки, которые позволяют это сделать. Эти особенности проанализированы в замечательном справочнике Р. С. Гиляревского и В. С. Гривнина «Определитель языков мира по письменностям» для большого числа языков. Книга эта очень полезная, хотя последнее ее издание вышло в 1965 году, поэтому кое в чем она устарела. Этот справочник в формате PDF находится в Интернете по адресу http://bit.ly/2p4pCys.

То, что можно свести в таблицу и классифицировать, можно и запрограммировать. Программу по автоматическому определению языка называют иногда guesser. Такая программа позволяет по введенным нескольким словам текста определить язык, на котором этот текст написан. Естественно, чем больше слов, тем точнее будет определение. Список таких программ можно найти по адресу http://bit.ly/guessers. Найти и опробовать.

По адресу http://bit.ly/guesser находится одна из лучших подобных программ. Кроме того, с задачей определения языка, с которого осуществляется перевод, очень часто справляется и переводчик Google (https://translate.google.com/ )

Статья опубликована на сайте Школа жизни
Полезные ссылки:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *