
Специализируюсь на разработке, тестировании и оптимизации статистических моделей для прогнозирования динамических процессов. Например, цен акций, товаров, исходов спортивных событий и других процессов стохастической природы.
Моя типичная задача, взять объем необработанных данных, и создать на их основе математические модели. Эти модели позволяют лучше понять природу процессов через данные и принимать оптимальные решения для моих клиентов.
Специализация
В большинстве случаев, я специализируюсь на анализе временных рядов, например цен акций, или продаж товаров. Однако, простые данные не означают простой анализ, мой ключевой навык – получение максимума информации из простых временных серий.
После первичной обработки данных, я создаю математическую модель. В зависимости от целей и задач это может быть как простая статистическая модель, так и многоуровневая модель машинного обучения. Главный фокус на увеличение эффективности принятия решений, либо улучшение вероятности успеха и математического ожидания прибыли.
Также, я специализируюсь на создании моделей на многоуровневых данных, например опционах, оптимизации портфелей акций, даже приходилось создавать алгоритмы для скачек в Австралии. Другими словами, такие модели, где необходимо принимать решения на комбинации разных временных серий из разных источников, либо на основе относительного анализа внутри разных групп.
Опыт
- Финансовое моделирование. Модели оценки прибыльности, бэктестеры для финансовых рынков, торговые стратегии, управление портфелем акций/стратегий.
- Моделирование рисков. VAR моделирование, Monte-Carlo симуляции разных процессов, оценка портфелей деривативов.
- Машинное обучение. Отбор метрик, количественная оценка важности метрик, Random-Forest, XGBoost
- Эконометрические модели. Логистическая регрессия, оптимизация, GARCH, OLS
- Математическая оптимизация. Кросс-валидация алгоритмов, генетические модели, gradient boosting, CMAE, PSO
- Парсинг данных (data scraping). Скрипты-парсеры сайтов, конвертеры бинарных форматов, SQL to CSV, REST API, и т.п.
Набор инструментов
Я специализируюсь только на Python, потому что он имеет очень широкий набор библиотек для анализа данных и один из самых эффективных языков программирования с точки зрения скорости разработки.
Мой стэк:
- Python – для общих вещей
- Cython / Numba – для высокоскоростных расчетов больших данных
- MongoDB – для хранения данных
- Pandas / Numpy – база для анализа данных
- SciPy / Scikin-learn – статистические и модели машинного обучения
- Jupyter Notebook / Plotly / Dash – для визуализации и дашбордов
Open-source проекты
Data science portfolio — очень грубый пример как могут выглядеть мои модели в процессе разработки
yauber-algo — коллекция алгоритмов анализа финансовых рядов
yauber-backtester — бэктестер для акций/фьючерсов/криптовалют с поддержкой портфельного управления и тестирования портфелей стратегий
cython-tools — набор инструментов для эффективной разработки на Cython (debugger, profiler, coverage, unit tests)