Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется
Содержание:
- Что учить
- Что мне нравится в моей работе
- Что знает, умеет и сколько стоит Data Scientist
- Зачем Data Science бизнесу
- Data Scientist – технические навыки
- Место работы
- Образование в области Data Science: ничего невозможного нет
- Курсы или халява?
- В области программирования больше рабочих мест
- Чем еще нужно обладать?
- Нет единого мнения, что означает «Data Science»
- С чего начать обучение Data Science самостоятельно
- Следующий шаг — полировка и углубление знаний
- Изолированность Data Science
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Каждый data scientist немного программист. При этом именно python является стандартом де-факто для нашей сферы. Вероятно, этот язык занял своё положение благодаря тому, что он очень простой и логичный. Если вы программировали на чём угодно, и слова «цикл» или «if-then-else» вас не пугают, то вам не будет очень сложно освоить Пайтон. Если вы никогда не программировали, но считаете, что структурное и математическое мышление — ваш конёк, с программированием у вас не будет проблем
Даже если вы «конченный гуманитарий», освоить Python значительно легче, чем выучить многие иностранные языки (но, внимание! для людей без предыдущего опыта программирования обучаться ему эффективнее по-другому, не так, как для тех, кто уже имеет опыт программирования)
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Как минимум, технический английский, на уровне чтения документации и профессиональных книг, — абсолютная необходимость. В этой сфере особенно: всё слишком быстро меняется. На русский язык все важные книги просто не будут успевать переводить, а многие критически важные библиотеки — даже и не будут пытаться. Поэтому, пока вы не способны читать упомянутые книги в оригинале, у вас вряд ли получится эффективно изучать data science. Хорошая новость: техническая терминология намного уже нормального разговорного языка и слэнга. Поэтому выучить английский на необходимом уровне не так уж и сложно. К тому же, знания языка могут пригодиться во многих других сферах, и даже в отпуске.
Что мне нравится в моей работе
Я работаю в «Тинькофф» уже три с половиной года. В нашей компании много задач для сайентистов и почти нет ограничений по развитию. Наука о данных — достаточно универсальная область
По сути тебе не важно какими данными ты занимаешься: о торговле продуктами или о поведении пользователей в интернете. Для всех задач есть одинаковая база: математика и программирование
Зная базовые вещи уже можно углубляться в конкретные области, например, компьютерное зрение или обработку естественного языка.
Большинство задач в индустрии довольно стандартные, они ориентированы прежде всего на бизнес-результат. Поэтому в какой-то момент каждому специалисту хочется начать делать что-то свое параллельно основной работе. Я, например, хотел бы привнести что-то новое в open-source (программы и технологии для разработчиков), но пока своих значимых кейсов нет.
Мне нравится создавать технологии, которые автоматизируют ручную работу. Например, известная в машинном обучении библиотека scikit-learn поделила профессию на «до» и «после»: у разработчиков появились инструменты для быстрой работы с алгоритмами ML.
Еще мне хотелось бы углубиться в другие области машинного обучения. Я занимаюсь временными рядами, обычно в этой специализации лучше работают классические модели. И хочу поглубже копнуть в Deep Learning — глубинное обучение, где нейросети способны решать очень сложные задачи. Именно в этой области сейчас происходят наиболее интересные в машинном обучении вещи.
Курс
Полный курс по Data Science
Освойте востребованную профессию с нуля за 12 месяцев и станьте уверенным junior-специалистом.
- Индивидуальная поддержка менторов
- 10 проектов в портфолио
- Помощь в трудоустройстве
Получить скидку Промокод “BLOG10” +5% скидки
Что знает, умеет и сколько стоит Data Scientist
Специалисты в области Data Science называются учеными или исследователями по данным (Data Scientist’ами). В настоящее время это одна из самых востребованных и высокооплачиваемых ИТ-профессий. Например, в Москве на январь 2020 года месячный труд ученого по данным оценивается около 200 тысяч рублей (от 70 до 250 т.р.). В США оплата выше – $110 – $140 тысяч в год .
Основная практическая цель работы ученого по данным – это извлечение полезных для бизнеса сведений из больших массивов информации, выявление закономерностей, разработка и проверка гипотез путем моделирования и разработки нового программного обеспечения .
Для достижения этой цели Data Scientist использует следующие инструменты:
- пакеты статистического моделирования (R-Studio, Matlab);
- технологии больших данных (Apache Hadoop, HDFS, Spark, Kafka), NoSQL-СУБД (Cassandra, HBase, MongoDB, DynamoDB и прочие нереляционные решения);
- SQL для работы с классическими реляционными базами данных и формирования структурированных запросов к NoSQL-решениям с помощью Apache Phoenix, Drill, Impala, Hive и пр.
- языки программирования (Python, R, Java, Scala) для разработки моделей машинного обучения и прототипов программного обеспечения;
- информационные системы класса Business Intelligence (дэшборды, витрины данных) для визуализации бизнес-показателей из информационных массивов.
Таким образом, можно сделать вывод, что Data Science включает следующие области знаний:
- математика: математический анализ, матстатистика и матлогика;
- информатика: разработка программного обеспечения, баз данных, моделей и алгоритмов машинного обучения (нейросети, байесовские алгоритмы, регрессионные ряды и пр.), Data Mining;
- системный анализ (методы анализа предметной области, Business Intelligence).
Подробнее о профессии Data Scientist’a и его отличиях от инженера и аналитика данных (Data Engineer и Data Analyst) мы писали здесь.
Портрет профессиональных компетенций ученого по данным
Источники
- https://ru.wikipedia.org/wiki/Наука_о_данных
- https://www.profguide.io/professions/data_scientist.html
- https://chernobrovov.ru/articles/analitika-dannyh-i-data-science-shodstva-i-razlichiya.html
Зачем Data Science бизнесу
Компании используют Data Science вне зависимости от размера бизнеса, показывает статистика Kaggle (профессиональная соцсеть специалистов по работе с данными). А по подсчетам IDC и Hitachi, 78% предприятий подтверждают, что количество анализируемой и используемой информации в последнее время значительно возросло. Бизнес понимает, что неструктурированная информация содержит очень важные для компании знания, способные повлиять на результаты бизнеса, отмечают авторы исследования.
Индустрия 4.0
Роман Нестер — РБК: «Коммерческие данные — это кровь интернета»
Причем это касается самых разных сфер экономики. Вот лишь несколько примеров отраслей, которые используют Data Science для решения своих задач:
- онлайн-торговля и развлекательные сервисы: рекомендательные системы для пользователей;
- здравоохранение: прогнозирование заболеваний и рекомендации по сохранению здоровья;
- логистика: планирование и оптимизация маршрутов доставки;
- digital-реклама: автоматизированное размещение контента и таргетирование;
- финансы: скоринг, обнаружение и предотвращение мошенничества;
- промышленность: предиктивная аналитика для планирования ремонтов и производства;
- недвижимость: поиск и предложение наиболее подходящих покупателю объектов;
- госуправление: прогнозирование занятости и экономической ситуации, борьба с преступностью;
- спорт: отбор перспективных игроков и разработка стратегий игры.
И это лишь самый краткий и поверхностный список использования Data Science. Количество различных кейсов с использованием «науки о данных» увеличивается с каждым годом в геометрической прогрессии.
Каждый интернет-пользователь и просто потребитель ежедневно десятки раз сталкивается с продуктами и решениями, в которых применяются инструменты Data Science. К примеру, аудио-сервис Spotify использует их, чтобы лучше подбирать треки для пользователей в соответствии с их предпочтениями. То же самое можно сказать о предложении фильмов и сериалах на видео-стримингах, таких как Netflix. А в Uber науку о данных рассматривают как инструмент для предиктивной аналитики, прогнозирования спроса, улучшения и автоматизации всех продуктов и клиентского опыта.
Экономика инноваций
Что такое Big Data и почему их называют «новой нефтью»
Конечно, дата-сайентисты не могут в точности предсказать будущее компании и учесть абсолютно все возможные риски. «Все модели неправильные, но некоторые из них полезны», — иронизировал по этому поводу британский статистик Джордж Бокс. Тем не менее, инструменты Data Science служат хорошей поддержкой для компаний, которые хотят принимать более информированные и обоснованные решения о своем будущем.
Data Scientist – технические навыки
Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.
Драйверы профессии
- автоматизация производственных и управленческих процессов
- рост объёмов данных, доступных для анализа
- развитие концепции открытых данных
Какие задачи будет решать Data Scientist
- сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
- анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
- превращение инсайтов (выявленных неочевидных закономерностей) в конкретные решения для бизнеса/науки/общества
- сотрудничество с ИТ-подразделениями и управленцами
- визуализация данных
Какие знания и навыки у него будут
- умение структурировать и интегрировать разнородные источники данных
- умение применять методы системного анализа при постановке задач
- продвинутый уровень цифровых навыков
- навыки программирования и работы с базами данных
- знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
- способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
- презентационные навыки
Программирование
Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.
По данным Towardsdatascience
Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.
У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.
Место работы
Data scientist востребован везде, где используются данные для решения конкретных задач. Это может быть финансовая структура, применяющая скоринговые системы при кредитовании физических лиц, или транспортная компания, составляющая расписание движения автобусов на основе анализа пассажиропотока.
Типы работодателей для дата-сайентистов:
- Крупные интернет-компании. Устроившись в подобную фирму стажером, можно наработать опыт в области обработки данных для карьерного роста. Работникам обеспечена официальная занятость, полный соц. пакет, бонусы.
- Аналитические подразделения предприятий различных отраслей деятельности. В эту группу входят банки, аудиторские фирмы, телекоммуникационные операторы, ритейл-сети. Сбербанк, один из первых финансовых гигантов в стране, воспользовался услугами дата-сайентистов. Работая в исследовательском отделе крупной компании, опытный специалист может внести личный вклад в ее развитие, предложив на основе анализа данных пути решения застарелых проблем.
- Стартапы в сфере data science. Фирмы, работающие в сфере консалтинга, набирают в штат команду дата-сайентистов. Для качественного консультирования клиента важен всесторонний подход к анализу его деятельности, формулирование предложений по продвижению бизнеса.
Бизнес-сообщество нуждается в грамотных специалистах по анализу данных. Поэтому на рынке труда постоянно присутствует много вакансий аналитиков в сфере финансов, телекоммуникаций, маркетинга и других направлений.
Образование в области Data Science: ничего невозможного нет
Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.
Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.
Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.
Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.
Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.
Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.
«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.
Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков
Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях
15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. |
Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.
Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.
Курсы или халява?
Выбор между платными курсами и самостоятельным обучением – это индивидуальное решение для каждого. В случае с наукой о данных, есть очень весомые аргументы «за» и «против» каждого варианта. Так, курсы стоят дорого – выше средней цены по современным профессиям, но вместе с тем, они дают возможность учится у практикующих специалистов, которые смогут на понятных примерах объяснить сложные темы.
С другой стороны, много профессиональной информации есть в открытом доступе, и чтобы ее изучить не нужно тратить сотни тысяч рублей. Но остается вопрос – а сможете ли вы разобраться самостоятельно? Чтобы принять взвешенное решение, советуем изучить нашу статью о плюсах и минусах каждого формата обучения: Дистанционное обучение: плюсы и минусы, возможности и преимущества онлайн-обучения
В области программирования больше рабочих мест
В программной инженерии на порядок больше рабочих мест по сравнению с наукой о данных.
Ниже приведено несколько снимков экрана после поиска в Google «специалист по данным» и «программист».
7616 рабочих мест в data science по сравнению с 53 8893 рабочими местами в программировании. Это рабочие места в США, но другие страны показали аналогичные результаты.
Согласно Glassdoor, специалисты по данным зарабатывают больше, но моя гипотеза также гласит, что работа в data science требует и больше знаний.
Тем не менее, если вам предложат зарплату 1 млн долларов в области искусственного интеллекта — соглашайтесь!)
Чем еще нужно обладать?
Помимо образования, есть несколько качеств, которые, как мне кажется, пригодятся дата-сайентисту.
Математический склад ума. В процессе принятия решений человек должен руководствоваться в первую очередь логическими умозаключениями.
Нестандартное мышление. Часто бывает, что для того, чтобы все работало, достаточно добавить или заменить всего одну строчку в коде. И аналитику нужно додуматься, какую именно.
Усидчивость. У дата-сайентистов довольно много рутинной работы, например, загрузка и предварительная обработка данных, проверка гипотез — не самые интересные и приятные этапы рабочего процесса. Но без них остальная часть работы невозможна, поэтому специалист должен уметь себя заставить делать что-то не очень интересное.
Дотошность
Мне, например, важно системно докопаться до сути вопроса, даже если на самом деле он не является важным. Например, после просмотра какого-нибудь фильма от Marvel я могу потратить много времени, систематизируя информацию об этой киновселенной: о супергероях, их истории, способностях и взаимоотношениях, о значимых событиях и так далее
В работе это качество необходимо, чтобы понимать нюансы применения различных алгоритмов и моделей, вплоть до деталей реализации.
Конечно, для дата-сайентистов очень важны внимание к деталям и настойчивость. Но это не значит, что одно только упорство или талант к математике сделают из вас профессионала
Дата-сайентист — профессия для целеустремленных и увлекающихся. Для тех, кто не боится трудностей и не бросает дело на полпути. И если все перечисленное про вас, то почему вы до сих пор не с нами в команде?
Фото в материале: архив компании
Нет единого мнения, что означает «Data Science»
У руководства часто нет единого мнения о том, что означает наука о данных. Также опыт показывает, что, учитывая ограничения в бизнесе, у них нет возможности строго следовать структуре распределения ролей.
Это означает, что обязанности «data scientist’а» в разных компаниях сильно различаются.
Хотя идеальный спектр должностей между программистом и специалистом по данным может существовать, маловероятно, что он будет реализован на самом деле. Это особенно касается стартапов, создающих основу инфраструктуры.
Наемные кандидаты в конечном итоге работают над проблемами, которые на самом деле необходимо решать силами компании, а не силами сотрудника, который только что был принят на должность data scientist.
Один из смешных случаев среди коллег в данной области заключался в том, что многие специалисты по данным писали бэкэнд-код, как разработчики программного обеспечения. Я знаю и других data scientist’ов, которые сидели в Excel и ломали головы над финансовыми вопросами.
Это резко контрастирует с тем, что вы ожидаете, если вы выросли на соревнованиях Kaggle.
С чего начать обучение Data Science самостоятельно
Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.
Python. Из-за простого синтаксиса этот язык идеально подходит для новичков. Со знанием Python можно работать и в других IT-областях, например веб-разработке и даже гейм-дизайне. Для работы нужно также освоить инструменты Data Science, например Scikit-Learn, которые упрощают написание кода на Python.
Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.
Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.
Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.
Вот несколько полезных ссылок для новичков:
Книги:
«Изучаем Python», Марк Лутц.
«Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow», Себастьян Рашка, Вахид Мирджалили.
«Теория вероятностей и математическая статистика», Н. Ш. Кремер.
«Курс математического анализа» Л. Д. Кудрявцев.
«Линейная алгебра», В. А. Ильин, Э. Г. Позняк.
Курсы:
Питонтьютор — бесплатный практический курс Python в браузере.
Бесплатный курс по Python от Mail.ru и МФТИ на Coursera.
Модуль по визуализации данных из курса Mail.ru и МФТИ.
Фреймворки, модели и датасеты
Основные библиотеки: NumPy, Scipy, Pandas.
Библиотеки для машинного и глубокого обучения: Scikit-Learn, TensorFlow, Theano, Keras.
Инструменты визуализации: Matplotlib и Seaborn.
Статья на хабре со ссылками на модели из разных сфер бизнеса на GitHub.
Список нужных фреймворков, библиотек, книг и курсов по машинному обучению на GitHub.
Kaggle — база моделей и датасетов, открытые соревнования дата-сайентистов и курсы по машинному обучению.
Дата-сайентистом можно стать и без опыта в этой сфере. За 13 месяцев на курсе по Data Science вы изучите основы программирования и анализа данных на Python, научитесь выгружать нужные данные с помощью SQL и делать анализ данных с помощью библиотек Pandas и NumPy, разберетесь в основах машинного обучения. После обучения у вас будет 8 проектов для портфолио.
Курс
Data Science с нуля
Станьте востребованным специалистом на рынке IT! За 13 месяцев вы получите набор компетенций, необходимый для уровня Junior.
- структуры данных Python для проектирования алгоритмов;
- как получать данные из веб-источников или по API;
- методы матанализа, линейной алгебры, статистики и теории вероятности для обработки данных;
- и многое другое.
Узнать больше
Промокод “BLOG10” +5% скидки
Следующий шаг — полировка и углубление знаний
В машинном обучении половина успеха заключается в правильной подготовке данных для алгоритом и правильном формулировании решаемой задачи (целевой функции)
Также важно научиться проходить все шаги построения моделей машинного обучения в наиболее оптимальной последовательности. Все данные темы отлично раскрыты в курсе, записанными русскими ребятами, но на английском языке: https://www.coursera.org/learn/competitive-data-science
Не стоит обращать внимание на kaggle — приведенные методы актуальны для реальных задач. Пройдя этот курс вы сможете понять комикс ниже
В статьях сообщества ODS (см.выше) дано множество ссылок на дополнительные источники. Рекомендую с ними ознакомиться. Также, через сайт сообщества можно найти видеозаписи многих семинаров, в которых также иногда рассматриваются очень полезные и фундаментальные темы. Например, мне были полезны все выстпления от основателя сообщества, Алексея Натенкина (прогнозирование временных рядов, еще пример)
Разные смежные концепции, которые необходимо знать
Нужно четко понимать разницу между корреляцией и причино-следственной связью. Не понимая этого — нельзя работать дата-сайентистом.
С большой долей вероятности, если вы будете делать какой-нибудь сравнительный анализ различных групп (рекламных компаний, поведения людей и т.п.) вам придется столкнуться с парадоксом Симпсона (отличное видео)
Важно отточить его понимание, т.к. от его последствий необходимо защищася, и даже зная о нём, я не всегда осозновал что встречаюсь с ним в практике
Также, с точки зрения постановки целей — поведение людей часто оказывается искажено, о чём рассказывает Goodhart’s law. Знание данного эффекта может подсказать направления анализа разных явлений.
Другие полезные книги/ материалы
Куча англоязычных статей по использованию разных библиотеке, в основном очень начального уровня, регулярно публикуется на сайте https://towardsdatascience.com; до 3 статей в месяц можно читать бесплатно.
Statistics Done Wrong .The woefully complete guide by Alex Reinhart — отличная иллюстрация того как не стоит применять математические методы проверки гипотез. Автор рассказывает как даже профессиональные учёные всё время ошибаются в их использовании.
Python Machine Learning, by Sebastian Raschka — хороший набор разных кусков кода, которые могут помочь на начальном этапе. Также у этого автора хорошие статьи по разным темам.
Как находить другие хорошие книги и курсы, отбирать лучшие и наиболее подходящие — писал в предыдущих статьях.
Необходимые технические знания
Git необходимо выучить чтобы работать над каким-либо кодом совместном с другими людьми. Замечательно простая и бесплатня книжка на английском — Ry’s Git tutorial. Также много книг доступно бесплатно на официальном сайте git. Отличное визуальное объяснение разных концепций: http://ndpsoftware.com/git-cheatsheet.html
https://www.practicaldatascience.org/ — хороший набор материалов по разным библиотекам и дополнительным инструментам. Фактически, даётся исчерпывающий перечень тем, которые придётся освоить для работы в дата саенс, с вводными материалами по всем темам (секцию Cloud точо стоит читать наискосок, т.к. тут с большой вероятностью придется работать с подобными технологиями других вендоров, которые имеют отличия).
Готов выступить ментором в самообучении
Посчитав, что мой опыт самообучения и быстрый рост доказывают эффективность отобранных мной подходов, книг и курсов, я решил заняться менторством.
Если у вас есть индивидуальные вопросы, на которые не отвечают мои статьи — пишите на почту self.development.mentor в gmail.com, Олег
В результате такого общения некоторые поняли, что им лучше уйти в другую сферу (программирование, биг дата), некоторым я смог скорректировать учебный/карьерный план под индивидуальные потребности, кому-то я посоветовал тех, кто сможет помочь лучше меня, а кого-то спас (?) от неэффективной траты времени на тупиковые проекты (решение задач в машинном обучении, без понимания принципов машинного обучения).
Изолированность Data Science
Большинству компаний не нужно столько специалистов по данным, сколько программистов. Другие компании только еще нанимают своего первого data scientist’а прямо сейчас.
По этой причине многие специалисты по данным работают в одиночку, даже если они сидят за одним столом с разработчиками.
Тут возникают сложности с получением обратной связи и мнения со стороны. Программисты либо не разбираются в прогнозном моделировании, либо слишком заняты работой над совершенно другими проблемами.
Напротив, одним из преимуществ наличия целой команды разработчиков является возможность сказать коллегам: «Я думаю, что мы должны внедрить ABC в XYZ. Что вы думаете на этот счет?»
Будьте готовы поговорить с самим собой … или с резиновой уткой (прим.пер. Метод тестирования ПО).