aerisDies

Machine Learning 101

Dec 10th, 2017
88
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 8.30 KB | None | 0 0
  1. Machine Learning 101:
  2. 1. Introduction to Statistical Learning ( http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf )
  3. Читается легко, неплохая разминка перед ESL
  4. 2. Pattern Recognition and Machine Learning, Bishop.
  5. 3. Bayesian Methods for Hackers. Введение в байесовские методы, годно.
  6. 4. http://neuralnetworksanddeeplearning.com
  7. Введение в нейронные сеточки для самых маленьких. Написано простым английским.
  8. 5. https://yandexdataschool.ru/edu-process/courses - базовые курсы ШАДа.
  9.  
  10. Machine Learning Advanced
  11. 1. Elements of Statistical Learning (http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf )
  12. Сложность - 9 из 10. Шутки в сторону, можно читать годами. Если вы сможете полностью проработать эту книгу и прорешать упражнения, обязательно свяжитесь со мной - у меня найдется работа для вас.
  13. 2. Optimization for Machine Learning. Edited by Suvrit Sra, Sebastian Nowozin and Stephen J. Wright, MIT Press, 2012.
  14. Иногда from sklearn.linear_model import LogisticRegression перестает работать и тогда нужно все переписать. Оптимизация квадратичных приближений на больших объемах данных, разреженные модели, суррогатные оптимизации - вот это все тут есть.
  15. 3. http://www.cs.nyu.edu/~mohri/mlbook/
  16. Как ESL, только слегка по-проще. Попробуйте, может зайти.
  17.  
  18. Дальше вас ждет дикий и необузданный мир. Два маяка https://vk.com/deeplearning и http://deeplearning.net/reading-list/ осветят дорогу: это списки литературы и обзоры статей для прощупывания пульса индустрии.
  19.  
  20. Computer Science
  21. 1. Introduction to Algorithms, Corman
  22. 2. The Art of Computer Programming, Knuth
  23. 3. Compilers: Principles, Techniques, and Tools. Разработчикам компиляторов и прочим авторам убийц питонов и крестов посвящается.
  24. 4. Введение в информационный поиск, Кристофер Маннинг.
  25. Как работает поиск с теоретической точки зрения.
  26.  
  27. Programming
  28. 1. Python Unlocked. Короткая книжка без соплей. В ней описаны метаклассы, дескрипторы, системы типов, шаблоны проектирования и TDD. Всего чуть больше 100 страниц концентрированной сути.
  29. 2. Code Complete (2nd), McConnell.
  30. Неплохая книга. Не то чтобы обдрочиться, но в голове всякие фишки по структуризации кода и его проектированию остались.
  31.  
  32. F.A.Q
  33. По мотивам предыдущего треда.
  34. Эти ваши книжки стоят овер 9000 рублей, как быть?
  35. http://libgen.io
  36. Книги хорошо, но с чего начать практический вкат?
  37. Во-первых, вам нужна любая unix-based система. На Windows возможно запустить нижеперечисленное, но ждите пердолева с настройкой и неодобрительных взглядов анонимуса. Кроме того, в компаниях, так или иначе связанных с разработкой йоба-ПО и machine learningом, Linux/OS X является стандартом. Привыкайте.
  38. Во-вторых, определитесь с языком. Python и C++ наиболее мейнстримовые инструменты, с ними вы без еды не останетесь. Есть еще R, на котором пацаны живут статистикой и анальными пакетами. Некоторые инструменты являются языко-независимыми (Vowpal Vabbit, XGBoost), но обвязывать их вы все равно будете из какой-либо среды.
  39. На Java разработано много production-ready инструментов для бигдаты и если вы угораете по терабайтам данных, то имеет смысл посмотреть в её сторону. Впрочем, лучше это делать уже потом, когда прийдет осознание потребностей.
  40. В-третих, выбирайте себе задачу. Что угодно: распознать качпу, обнаружить ботов по логам, найти раковых больных. Список можно посмотреть, например, на kaggle.com. После чего приступаете к решению выбранной задачи.
  41. Не прийдется ли мне потом с таким наборищем знаний идти в макдак работать?
  42. Несмотря на хайп вокруг ML, далеко не во всех IT компания есть необходимость в ML и понимание круга задач, которые можно решить этими методами. Но поверьте, в 2016 компетентный специалист будет востребован. В России потребителями ваших знаний могут стать: Яндекс, Mail.ru, Вконтакте, Rambler, Касперский, Билайн, Связной, ABBYY, Хуавэй. В биоинформатике есть определенный спрос, можно поскролить http://blastim.ru
  43. Здорово, но я так и не понял чем же вы занимаетесь в IT компаниях?
  44. Попытаюсь ответить со своей колокольни и сразу хочу предупредить, что это едва ли консенсуальное мнение.
  45. ML-специалист - это такое зонтичное определение для человека, способного увидеть проблему, выгрепать кучу логов и данных, посмотреть на них, придумать решение проблемы и врезать это решение его в продакшн. По сути, это кодер, решающий не чисто технические, а, в некотором роде, человеческие проблемы.
  46. Имхо, мы все же остаемся в первую очередь разработчиками.
  47. Но ведь есть Machine Learning per se, чем он занимается?
  48. Действительно есть. Одаренная прослойка людей изобретает новые методы, но это правильнее называть просто математикой. Сейчас пищей для ума являются нейронные сети и их возможные архитектуры, но даже они двигаются рука об руку с практикой.
  49. Что такое TensorFlow?
  50. TensorFlow - часть гуглового инструмента для перемножения тензоров и оптимизации функционалов. Часть - потому что важные куски типа параллелизации еще не выкачены в паблик. Если вам все ещё непонятно что это, значит это вам и не нужно, сириусли. Google перестарался с рекламой и теперь люди думают, что TF - это серебряная пуля и затычка для каждой бочки. До TF был Theano, который выполнял свою работу не хуже. И, в отличии от TF, он уже находится в стабильной фазе.
Add Comment
Please, Sign In to add comment