data science основные навыки
Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень
Перед вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.
Раньше, чтобы получить работу в Data Science, было достаточно базовых навыков программирования на языках R или Python и знаний в области машинного обучения, полученных на МООК (массовый открытый онлайн-курс).
Во всяком случае, я так слышала. Мне не повезло попасть в сферу Data Science на столь раннем этапе.
Впервые я услышала о Data Science в 2015 году, почти три года спустя после того как Томас Х. Дейвенпорт и Дж. Д. Патил назвали Data Scientist «самой привлекательной профессией 21 века».
В то время конкуренция в сфере уже была ожесточенной. Я думаю, с тех пор она только усилилась. Ежегодно интерес к этой профессии возрастает, и множество университетов предлагают степень магистра в области Data Science и аналитики.
Также можно с уверенностью сказать, что для того, чтобы ваше резюме выделялось из общей массы, уже недостаточно просто пройти курс по Data Science от Coursera.
Итак, если вы уже программист уровня «бог» и прошли столько курсов машинного обучения, что «случайные леса» (Random Forest) и нейронные сети снятся вам по ночам, то над какими навыками вам нужно работать, чтобы все-таки попасть в сферу Data Science? А когда вы туда попадете, в каком направлении развиваться дальше?
Почему бы нам не спросить работодателей?
Наиболее важные навыки для специалистов по Data Science
Чтобы узнать, чего ждут работодатели от специалистов по Data Science, я изучила 100 вакансий в этой области. Все они были размещены на LinkedIn в период с 22 апреля по 5 мая 2019 года и принадлежали компаниями из Австралии, Канады, Великобритании и США.
При выборе объявлений о вакансиях учитывался тип нанимающих компаний, их размер, отрасль и уровень должностей. Исключительно управленческие роли в подборку не попали.
Из этих объявлений я выбрала навыки, указанные в качестве критериев отбора или должностных обязанностей, и определила 20 наиболее востребованных навыков специалиста по Data Science (за исключением владения языками программирования и технологий).
Эти навыки можно условно разделить на три категории:
Исходя из вышеперечисленного, можно выделить шесть навыков, которые стоит развивать, чтобы значительно увеличить шансы найти работу:
Моделирование и статистика
Какие навыки я должен освоить в первую очередь?
Из 100 найденных вакансий в области Data Science 15 относились к должностям начального уровня (Junior, Intern, для «выпускников» и т. п.), 44 относились к специалистам среднего уровня и 41 — к специалистам высокого уровня (Senior, Principal, Lead и т. п.).
Ниже в таблице показана доля объявлений о вакансиях, в которых упоминается каждый из шести ранее определенных навыков наряду с ранжированием каждого навыка.
На всех уровнях должностей «презентация и коммуникабельность» неизменно входят в число двух наиболее востребованных навыков у работодателей. Кроме того, коммуникативные навыки, такие как «разъяснение технических концепций аудитории с гуманитарным мышлением» и «работа с клиентами/стейкхолдерами», приобретают все большее значение по мере увеличения стажа работы.
Поэтому, если бы вам пришлось выбрать один навык, над развитием которого нужно было бы поработать, коммуникабельность стала бы правильным выбором.
Но зачем останавливаться только на одном?
«Статистическое моделирование / статистический анализ» также входят в тройку главных навыков на всех уровнях должностей, что свидетельствует о важности их развития. Особенно это важно для специалистов на ранних этапах карьеры.
При переходе с должностей начального уровня на уровень выше стоит иметь в виду, что доля вакансий, в которых «статистическое моделирование / статистический анализ» упоминаются как желаемые навыки, увеличивается с 53,3% до 86,4%.
Тем, кто планирует занять более высокую должность, важно уделить внимание развитию навыков руководства и наставничества. При условии что навыки в области статистики уже развиты.
В то время как только 6,7% должностей начального уровня в области Data Science требуют лидерских/наставнических качеств, на более высоких должностях они требуются уже в 58,5% случаях (рост на 873%), что выводит их на пятую позицию по востребованности.
В заключение
На оттачивание всех вышеперечисленных навыков уйдет некоторое время, но так и должно быть. Если бы вы смогли овладеть всеми знаниями, необходимыми в сфере, всего лишь за выходные, то захотели бы вы в таком случае посвятить годы своей жизни этой работе?
Однако сосредоточившись только на одном или двух навыках за раз и посвятив им всего несколько часов в неделю, вы приобретете набор востребованных навыков, который поможет вам выделиться из толпы и увеличить шансы на карьерный рост или получение желаемой работы в сфере Data Science.
Итак, какой навык вы собираетесь освоить в первую очередь?
Data Science Skills
Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.
Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?
Кто такие Data Scientists?
Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist – это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.
Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist.
Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.
Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.
Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.
Data Scientist Skills
В англоязычном Интернете тренд повышения интереса к Data Science хорошо заметен примерно с 2012 года (https://www.google.com/trends/explore#q=Data%20Science). В последние несколько лет также хорошо заметен рост интереса к смежным областям: Machine Learning, Artificial Intelligence, Deep Learning. Gartner поместил Machine Learning на вершину hype curve в 2015 году: Gartner’s 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations That Organizations Should Monitor. А журнал Harvard Business Review в 2012 году опубликовал статью с интригующим заголовком: Data Scientist: The Sexiest Job of the 21st Century.
Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.
Мы проанализировали 549 вакансий, опубликованных на одном из крупнейших мировых порталов по поиску работы — Monster.com, которые включали требования Data Science и Machine Learning.
Data Scientist Hard Skills
Начнем с анализа требований к владению профессиональными навыками (hard skills).
Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.
Data Science Tools and Technologies
Основным инструментарием Data Scientist являются языки программирования Python и R.
R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.
Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.
Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.
Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.
Data Scientist Soft Skills
Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.
Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.
Data Scientist Domain Knowledge
В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.
Data Scientists Specializations
Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.
Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.
Влияние технологий на зарплату
Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:
Как изучать Data Science?
За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!
Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science. Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.
Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение.
Самые востребованные навыки в сфере data science
В плане знаний от специалистов по data science ждут многого: машинное обучение, программирование, статистика, математика, визуализация данных, коммуникация и глубокое обучение. Каждая из этих областей охватывает десятки языков, фреймворков, технологий, доступных для изучения. Так как же специалистам по работе с данными лучше распорядиться своим бюджетом времени на обучение, чтобы быть в цене у работодателей?
Я тщательно изучил сайты с вакансиями, чтобы выяснить, какие же навыки сейчас пользуются наибольшей популярностью у работодателей. Я рассматривал как более широкие дисциплины, связанные с работой с данными, так и конкретные языки и инструменты, в рамках отдельного исследования. За материалами я обратился к сайтам LinkedIn, Indeed, SimplyHired, Monster и AngelList, по состоянию на 10 октября 2018 года. На графике ниже показано, сколько вакансий по data science представлено на каждом из этих ресурсов.
Я изучил множество описаний вакансий и опросов, чтобы понять, какие навыки упоминаются чаще всего. Термины вроде «управление» в анализ не включались, так как на сайтах вакансий они употребляются в очень широком круге разнообразных контекстов.
Поиск производился по США на базе терминов «data science» «ключевое слово». Чтобы сократить выдачу, я отобрал только точные вхождения. Так или иначе, подобный метод гарантировал, что все результаты будут релевантны data science и ко всем запросам будут применяться одни и те же критерии.
AngelList выдает не общее число вакансий, имеющих отношение к работе с данными, а общее число компаний, предлагающих такие вакансии. Я исключил этот сайт из обоих исследований, так как его поисковый алгоритм, судя по всему, работает по принципу «ИЛИ» и не дает возможности как-нибудь переключиться на модель «И». С AngelList можно работать, когда вводишь что-то в духе “data scientist” “TensorFlow”- в этом случае соответствие второму запросу предполагает соответствие первому. Однако если использовать ключевые слова в духе “data scientist” “react.js”, то в выдаче будет очень много вакансий, не связанных с data science.
Материалы с Glassdoor также пришлось исключить. На сайте утверждалось, что они располагают информацией о 26 263 вакансиях по работе с данными, но на деле отображалось максимум 900. К тому же, мне представляется крайне сомнительным, что они собрали в три с лишним раза больше вакансий, чем любой другой крупный сайт.
Для финального этапа исследования я отобрал ключевые слова, по которым на LinkedIn была большая выдача: более 400 результатов для навыков широкого профиля, более 200 — для частных технологий. Конечно, не обошлось без дублирующихся предложений. Итоги этого этапа я зафиксировал в Google-документе.
В моем Kaggle Kernel вы найдете интерактивные графики и дополнительный анализ. Для визуализации я использовал Plotly. Чтобы работать с Plotly и JupyterLab в связке придется кое-что подшаманить, по крайней мере, так было на момент написания этой статьи — инструкции можно прочитать в конце моего Kaggle Kernel, а также в документации Plotly.
Навыки широкого профиля
Вот график, который представляет самые популярные навыки общего профиля, которые работодатели хотят видеть у кандидатов.
Результаты показывают, что аналитика и машинное обучение по-прежнему составляют основу работы специалистов по data science. Основное назначение этой специальности — делать полезные заключения на базе массивов данных. Машинное обучение ставит своей целью создание систем, способных предсказывать ход событий, соответственно, оно пользуется большим спросом.
Для обработки данных требуется знание статистики и умение писать код — тут удивляться нечему. Кроме того, статистика, математика и программная инженерия — это специальности, по которым ведется подготовка в вузах, что тоже может сказываться на частотности запросов.
Интересно, что в описаниях почти половины вакансий упоминается коммуникация: специалистам по работе с данными нужно уметь доносить до людей свои выводы и работать в команде.
Упоминания ИИ и глубокого обучения встречаются не так регулярно, как некоторые другие запросы. Тем не менее, эти области являются ответвления машинного обучения. Глубокое обучение все чаще и чаще применяется в задачах, для которых раньше использовались алгоритмы машинного обучения. Например, лучшие алгоритмы машинного обучения для проблем, возникающих при обработке естественного языка, сейчас относятся именно к области глубокого обучения. Полагаю, что в будущем оно будет становиться все более востребованным, а машинное обучение постепенно начнет восприниматься как синоним глубокого.
Какие же конкретные программные решения должны освоить специалисты по data science, по мнению работодателей? Перейдем к этому вопросу в следующем разделе.
Технологические навыки
Внизу представлены 20 конкретных языков, библиотек и технологических инструментов, с которыми, на взгляд работодателей, специалисты по обработке данных должны иметь опыт работы.
Давайте быстро пройдемся по лидерам.
Python — самый востребованный вариант. То, что этот open source язык крайне популярен среди программистов, отмечали многие. Для новичков это очень удобный вариант: существует множество обучающих ресурсов. Подавляющее большинство новых инструментов для работы с данными с ним совместимо. Исходя из всего этого, Python можно называть основным языком для специалистов по data science.
R следует за Python с небольшим отрывом. Когда-то основным языком для специалистов по data science был именно он. Для меня стало сюрпризом то, что активный интерес к нему сохраняется до сих пор. Этот язык берет начало в статистике, и соответственно, пользуется большой популярностью у тех, кто ей занимается.
Практически все вакансии ставят обязательным условием знание одного из этих двух языков — Python или R.
SQL также очень востребован. Аббревиатура расшифровывается как Structured Query Language (язык структурированных запросов), и именно этот язык является главным инструментом для взаимодействия с реляционными базами данных. SQL в сообществе специалистов по data science нередко пренебрегают, однако он относится к навыкам, свободное владение которыми стоит показать, если вы планируете выходить на рынок труда.
Следом идут Hadoop and Spark — оба они являются open source инструментами от Apache, рассчитанными на работу с большими данными. Про них написано куда меньше туториалов и статей на Medium. Я предполагаю, что число соискателей, которые ими владеют, значительно меньше, чем тех, кто знаком с Python или R. Если вы умеете работать с Hadoop and Spark или имеете возможность их освоить, это может стать для вас хорошим преимуществом перед конкурентами.
Далее — Java и SAS. Я был удивлен, что эти два языка смогли забраться так высоко. Оба являются детищами крупных компаний и для обоих представлено какое-то количество бесплатных материалов. Тем не менее, среди специалистов по data science ни Java, ни SAS не возбуждают особого интереса.
Следующий в рейтинге востребованных технологий — Tableau. Это аналитическая платформа и инструмент для визуализации, отличающийся большой мощностью и простой в использовании. Его популярность неуклонно растет. У Tableau есть бесплатная публичная версия, но если хотите работать с данными в приватном режиме, придется раскошелиться. Если вы совсем не знакомы с Tableau, имеет смысл пройти краткий курс — скажем, Tableau 10 A-Z на Udemy. За рекламу они мне не платят, я просто сам занимался по этому курсу и нашел его очень полезным.
На графике внизу вы можете ознакомиться с расширенным списком востребованных языков, фреймворков и других инструментов для работы с данными.
Историческое сравнение
Команда GlassDoor публиковала исследование десяти самых популярных навыков для специалистов по data science на отрезке с января по июль 2017 года. На графике ниже их данные по частотности терминов сопоставляются с рассчитанными мной средними значениями для сайтов LinkedIn, Indeed, SimplyHired и Monster.
В целом, результаты схожи. И мое исследование, и исследование от Glassdoor сходятся на том, что на Python, R и SQL спрос наиболее высокий. Топы навыков также совпадают по составу в пределах первых девяти позиций, хотя точный порядок отличается.
Судя по результатам, по сравнению с первой половиной 2017 года степень востребованности R, Hadoop, Java, SAS и MatLab снизилась, а Tableau, напротив, стал более популярным. Этого следовало ожидать, если посмотреть хотя бы на результаты опроса разработчиков от KDnuggets. В них ясно видно, что R, Hadoop, Java и SAS на спаде уже несколько лет, в то время как Tableau стабильно на подъеме.
Рекомендации
С учетом этих выкладок я хотел бы предложить ряд рекомендаций для специалистов по работе с данными, которые уже вышли на рынок или только готовятся начать карьеру и хотя повысить свою конкурентоспособность.
Помимо этих рекомендаций, думаю, стоит сосредоточиться на изучении того, что вам самим интересно, хотя, разумеется, распределять свой запас времени на обучении можно с опорой на самые разные соображения.
Если вы ищете вакансии специалиста по работе с данными на онлайн-порталах, советую начать с LinkedIn — выдача у него стабильно самая обширная. Также при поиске вакансий или размещении резюме на сайтах очень большую роль играют ключевые слова. Например, на всех рассмотренных ресурсах по запросу «data science» выпадает в три раза больше результатов, чем по запросу «data scientist». С другой стороны, если вас интересуют только и исключительно предложения с должностью data scientist, лучше отдать предпочтение этому запросу.
Но какой бы ресурс вы ни выбрали, рекомендую создать онлайн-портфолио, которое демонстрировало бы ваши умения в разных востребованных областях — чем больше их будет, тем лучше. Профиль на LinkedIn в идеале должен содержать какие-то доказательства владения навыками, о которых вы говорите.
Возможно, я изложу остальные результаты исследования в других статьях. Если вы хотите подробнее изучить код или интерактивные графики — приглашаю в Kaggle Kernel.
👨🔬️ 10 навыков, необходимых в профессии Data Scientist
В статье «Научиться Data Science онлайн» мы рассказали, как овладеть профессией с нуля (был и отдельный материал об анализе больших данных ). В этой статье, подготовленной при поддержке Факультета Искусственного интеллекта онлайн-университета GeekBrains, мы сосредоточимся на ключевых навыках, необходимых тем, кто хочет стать Data Scientist.
Источник
Hard Skills
1. Математическая база
Бесплатные онлайн-курсы по перечисленным областям математики с высокими оценками слушателей:
2. Программирование
3. Работа с базами данных
4. Предобработка данных
Data Scientist также занимаются подготовкой данных к анализу. Часто данные в бизнес-проектах не структурированы (видео, изображения, твиты) и не готовы для анализа. Крайне важно понимать и знать, как подготовить базу данных для получения желаемых результатов без потери информации. На этапе разведочного анализа данных (EDA) становится ясным, какие проблемы с данными необходимо решить и как нужно преобразовать базу данных для построения аналитических моделей.
5. Алгоритмы
6. Навыки, специфичные для выбранной области анализа
Но есть и другие области, где возможно применение как нейросетевого подхода, так и собственных решений:
Soft skills
7. Умение донести свою идею
Курсы о принципах успешной презентации:
8. Командная работа
Навык успешной командной работы приходит с опытом, а для освоения тонкостей обратите внимание на следующие ресурсы:
9. Умение видеть коммерческую сторону вопроса
Ключевой навык Data Scientist для работы в бизнес-среде – умение находить экономически эффективные решения с минимальными затратами ресурсов. Компании, которые используют Data Science для получения прибыли, нуждаются в специалистах, понимающих, как реализовать бизнес-идеи с помощью данных.
Про особенности Data Science для бизнеса:
10. Критическое мышление
Навык критического мышления помогает находить подходы и пути решения проблем, которые не видят остальные. Критическое мышление Data Scientist – это видение всех сторон проблемы, рассмотрение источников данных и проявление любопытства.
Ананд Рao, руководитель отдела глобального искусственного интеллекта и инноваций в области данных и аналитики PwC
Программа курса включает и технические знания, и их применение для развития бизнеса. Включена возможность развития навыков командной работы и участие в соревнованиях Kaggle. Обучение на курсах построено на принце практической работы над проектами с ведущими специалистами сферы и личным помощником-куратором.