Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Неправильні XPOS-мітки #277

Open
lynnporu opened this issue Feb 7, 2019 · 5 comments
Open

Неправильні XPOS-мітки #277

lynnporu opened this issue Feb 7, 2019 · 5 comments

Comments

@lynnporu
Copy link

lynnporu commented Feb 7, 2019

Працював з корпусом, і помітив, що деяких XPOS-міток просто не існує у специфікації MULTEXT-East Morphosyntactic Specifications, Version 4. Так, наприклад, з тегами Ppp-mysaa (трапляється в тренувальному корпусі на рядках 19114, 32493, 53879, 88733), Ppp-m-sga (29 випадків, там же) і Ppp-n-sga (8 випадків, там же). (Це тільки перше, що знайшов).
Побачив, що якщо попереставляти деякі букви, то з тих тегів вийде щось правильне, але ж машина до такого не здогадається, вона просто викине помилку.
Якщо це до вас, то виправте будь ласка.

@msklvsk
Copy link
Member

msklvsk commented Feb 7, 2019

Виправив p на s на позначення присвійності у dev-гілці — це явний чортик був.
Але MTE-міта застаріла і вже розійшлася з UD. Щоб її підтримувати треба спеціально переробити деякі речі на старий (менш логічний) лад, тому в наступній версії ми її взагалі викинемо і занулимо XPOS. Користуйтеся UPOS+FEATS — там вся інфа і більше, й логічніше за MTE, не кажучи вже про універсальність UD. В MTE не закладені присвійні його/її — це їх ви не знаходите.

@lynnporu
Copy link
Author

lynnporu commented Feb 8, 2019

Можливо, є якийсь сенс в тому, щоби випустити "оновлений" стандарт MTE, якщо це можливо, з описом змін і відмінностей? Можна, звичайно, посперечатись, але XPOS дуже зручно використовувати задля індексації великої кількості слів у базі даних (у мене саме так система працює), а FEATS буде обробляти значно важче.

@msklvsk
Copy link
Member

msklvsk commented Feb 8, 2019

Два роки тому ми хотіли випустити оновлений МТЕ, але сам координатор стандарту відмовив нас на користь UD.

Можна нормалізувати базу по фічах (кожна колонка відповідає окремій морфологічній рисі, наприклад Aspect — спосіб дієслова), можна окрему табличку завести для повного тегу і джойнити за id. Я б щось таке зробив.

@lynnporu
Copy link
Author

lynnporu commented Mar 29, 2019

Хочу створити стандарт мітки, яка відображатиме UD-фічі, але для цього потрібно знати, чи використовуєте ви ті самі властивості, які визначені у UD стандарті тут: http://universaldependencies.org/u/feat/index.html?
Якщо так, то результат роботи буде в цьому треді.

@msklvsk
Copy link
Member

msklvsk commented Apr 1, 2019

Звичайно, корпус в UD репо має стандарт UD. На додачу до універсальних фіч є ще language-specific. Не на всі написана документація.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants