"Trust me, I'm an improviser" (c) Owen Harper
В недрах секретной лаборатории Икс компании Google, которая получила широкую известность за изобретения автомобилей с автопилотом и очков дополненной реальности, уже несколько лет ведутся работы по моделированию человеческого мозга.
Ученые из Google создали одну из крупнейших нейронных сетей, состоящих из 16 000 компьютерных процессоров. Отличительной особенностью данной разработки является самообучение, для чего эту машину отпустили в "свободное плавание" по интернету.
Что же первым делом заинтересовало этот виртуальный мозг, после просмотра 10 миллионов цифровых скриншотов видео на YouTube? То же, что и миллионы людей: коты.
Эта нейросеть научила себя распознавать котов, что не так-то просто сделать. На этой неделе, исследователи представят доклад о результатах своей работы на конференции в Эдинбурге, Шотландия.
читать дальше
(с) globalscience.ru/article/read/20767/
Ученые из Google создали одну из крупнейших нейронных сетей, состоящих из 16 000 компьютерных процессоров. Отличительной особенностью данной разработки является самообучение, для чего эту машину отпустили в "свободное плавание" по интернету.
Что же первым делом заинтересовало этот виртуальный мозг, после просмотра 10 миллионов цифровых скриншотов видео на YouTube? То же, что и миллионы людей: коты.
Эта нейросеть научила себя распознавать котов, что не так-то просто сделать. На этой неделе, исследователи представят доклад о результатах своей работы на конференции в Эдинбурге, Шотландия.
читать дальше
(с) globalscience.ru/article/read/20767/
Интересно, почему именно коты?
В отсутствие дополнительных данных, я поняла ее следующим образом "мы кластеризировали (возможно, каким-то хитрым образом) огромный объем данных, и один из кластеров, оказалось, соответствует осмысленному понятию - котам. А потом мы использовали полученные кластеры для классификации и обошли другие методы по точности". Жалко, что мало деталей
Создание полноценной модели коры головного мозга человека может быть достигнуто уже по окончании текущего десятилетия", - сказал Дэвид Бадер из Технического колледжа в Джорджии
В тему ru.wikipedia.org/wiki/Blue_Brain_Project
К такого рода высказываниям я бы относилась еще осторожней.
Но все равно весьма любопытно вышло, и я склонна считать это если не прорывом, то хотя бы подтверждением того, что интуитивно угаданное вполне может оказаться правдой. А до конца десятилетия еще восемь лет. Кто их знает - возможно, кору как раз и смоделируют в плане количества нейронов (я так понимаю, он это имел в виду). Другое дело, что моделирование коры - не есть моделирование или тем более повторение мозга в целом.
Целиком или именно зрительную кору? Чисто технически, впрочем, может, и получится.
Другое дело, что моделирование коры - не есть моделирование или тем более повторение мозга в целом
:friends:
подтверждением того, что интуитивно угаданное вполне может оказаться правдой
м? Это про что конкретно?
я так поняла, что он о коре в целом, но про "зрительную кору" предположение выглядит логичнее.)
интуитивно угаданное - это я про киберпанковскую байку, см. первый комментарий. Наверняка натыкались, если читали такое. Оно носится в воздухе на правах общего места уже достаточно давно, хотя никаких научных доказательств тому, что при накоплении информации сверх какого-то порога зарождается сознание, пока нет.
А мне кажется, что это подтверждение байки в том плане, что нечто новое самовозникло, исходя из тезисов статьи. Пущенная в свободное плавание нейронная сеть, умеющая лишь обучаться в принципе, обучилась вполне конкретной вещи, которой от нее никто не ожидал. На меньших объемах информации такого никогда не происходило, насколько мне известно, а алгоритмы у этой нейронной сети старые, как косвенно подтверждается в конце статьи. То есть вся разница - именно в объеме информации, пропущенной через сеть. Если столь маленький объем информации на столь простой нейронной сети дает такой эффект, то, по-моему, вполне разумно предполагать, что большой объем информации на более сложных сетях дадут куда более внятный результат.
Главное, что этот эксперимент показал принципиальную возможность самостоятельного развития некоей информационной структуры за счет усвоения информации. :-)
Вот здесь у нас, собственно, и разница в восприятии. Вот я не увидела никакой новой структуры и никакого саморазвития, поэтому и хочется деталей. Ну и ничего того, что было бы невозможно при меньших объемах тоже.
Вот об этом и хочется деталей. Что такое "система выделила"? Этими словами можно описать и стандартный процесс кластеризации и тогда в нем не будет ничего прорывного и нового, кроме объема и того, что один из кластеров оказался носителем некого семантического значения (это действительно интересно). Если же они действительно придумали что-то другое в математическом смысле, то было бы крайне интересно про это почитать.
Фишка еще и в том, на мой взгляд, что все программы распознавания изображений учат и натаскивают на конкретные изображения, то есть им дается изначальный образец и какое-то количество фидбека (в случае с нейронными сетями - тестовые данные с заранее известным результатом). Скажем, буквы или человеческое лицо. В данном же случае никаких образцов не было, плюс использовались замусоренные естественные изображения (кадры из ютуб-видеороликов), а не специально подготовленные данные (коты на белом фоне, чтоб четко была видна граница объекта).
Обучение нейронной сети без известного правильного варианта - это в любом случае прорыв. Стандартная схема обучения программы: объяснить, что и как делать, и подсунуть данные, которые можно обработать по аналогии. Здесь же никто ничего не объяснял, программа самостоятельно вычислила правильный результат.
Вы путаете с классификацией, при кластеризации группы тоже не задаются и никакого фидбека не предоставляется.
использовались замусоренные естественные изображения (кадры из ютуб-видеороликов), а не специально подготовленные данные
Программы распознавания тоже учат на естественных изображениях, иначе их область применения очень ограничена. Но это уже детали.
Обучение нейронной сети без известного правильного варианта - это в любом случае прорыв.
ieeexplore.ieee.org/xpl/articleDetails.jsp?relo...
Unsupervised neural network - 1998 год. Само по себе не прорыв.
Стандартная схема обучения программы: объяснить, что и как делать, и подсунуть данные, которые можно обработать по аналогии.
Есть целый огромный и довольной развитый раздел машинного обучения - unsupervised learning (к которому, собственно, и относится задача кластеризации).
Иначе ничего удивительного бы действительно не было, а новость подается именно как достижение за счет объема данных
Я так поняла, что удивительно то, что вместо какого-то абстрактных признаков одна из групп действительно отражала что-то осмысленное.
хм, я не специалист, конечно, но когда изучала и писала алгоритмы по кластеризации, там необходимо было определить критерии, по которым вычисляется расстояние между двумя объектами - т.е. критерии сходства/различия. Это подразумевает знание того, какие характеристики у объекта вообще есть. Если не задавать способа определения расстояния между объектами, как их кластеризировать? о_О
Момент про фидбек относился к нейронным сетям, конечно же.
Программы распознавания тоже учат на естественных изображениях, иначе их область применения очень ограничена. Но это уже детали.
Так я же про совокупность: когда нет ни образцов, ни фидбека, ни четких изображений. Скажем, если бы не было ни образцов, ни фидбека, но при этом изображения были бы четкими, то последний фактор компенсировал бы первые два. Здесь же со всех сторон одни сложности. =)
За ссылку спасибо, почитаю.
А вот здесь и нужны детали
когда нет ни образцов, ни фидбека, ни четких изображений
Образцы есть, они же показали им 10 млн скриншотов. Или вы что-то другое под образцами понимаете?
Скажем, если бы не было ни образцов, ни фидбека, но при этом изображения были бы четкими, то последний фактор компенсировал бы первые два
Наличие/отсутствие фидбека определяет решаемую задачу, а "шумность" изображений ее сложность. Это разные вещи, они друг друга не компенсируют.
За ссылку спасибо, почитаю
Пожалуйста, только предупреждаю, что эта - практически случайно найденная по запросу, выбрана из-за даты. Там много куда более свежего и фундаментального.
ненене, отвлекаясь от гугла - вы сказали, что я не права в том, что для кластеризации необходимо заранее задать признаки, по которым объекты будут делиться на кластеры. Значит, вам известен какой-то способ кластеризации, при котором эти признаки не задаются. Вот это объясните, пожалуйста.
Кластеризацию я тут использовала в самом широком смысле слова.
не поняла, что за широкий смысл? Кластеризация - разделение группы объектов на подгруппы по какому-то признаку. Еще более обще?)
Образцы есть, они же показали им 10 млн скриншотов. Или вы что-то другое под образцами понимаете?
это не образцы, это данные. Под образцом я понимаю картинку в данном случае с котом, где кот явным образом выделен и сказано: "ищи вот такие штуки на других картинках".
Наличие/отсутствие фидбека определяет решаемую задачу, а "шумность" изображений ее сложность. Это разные вещи, они друг друга не компенсируют.
Это смотря как подойти к решению. Если задача задана не как "найти кота", а как "найти что-нибудь", то при работе с картинками, где на белом фоне есть коты, коты естественным образом становятся главным претендентом на "что-нибудь", и тогда уже не важно, что образца кота программе не дали. Он и не нужен: все, что не белое - то кот. При работе с картинками, где явных границ между объектами нет, критерии выделения этих самых объектов неясны, и их нужно выработать самостоятельно.
Я не хотела цитировать весь абзац, где вы говорите о том, что специально никто не учил сеть выделять объект "кот". Мне показалось, что вы имеете в виду, что при кластеризации сеть бы специально учили выделять объект "кот". Видимо, я не правильно вас поняла. Какая-то метрика над объектами, безусловно, нужна.
Кластеризация - разделение группы объектов на подгруппы по какому-то признаку. Еще более обще?)
Я начинаю путаться в вашей терминологии. Что вы тут имеете в виду под подгруппами и, главное, под признаком?)
Если я поняла вас правильно, то именно эту задачу, согласно статье, гугл и решал: разбил картинки на подгруппы, одна из подгрупп оказалась подгруппой с котами. В качестве признаков использовались, как минимум, численные представления самих картинок.
Под образцом я понимаю картинку в данном случае с котом, где кот явным образом выделен и сказано: "ищи вот такие штуки на других картинках
Если есть образцы, согласно этому определению, то это задача классификации, так как есть метки. Обычно за очень редким исключением фидбек это функция от меток и их совпадения. Фидбек без меток бывает крайне редко.
все, что не белое - то кот
А если кот белый? Или с белыми элементами? Или два кота? Нахождение границ объекта на изображении - само по себе задача, требующая решения.
При работе с картинками, где явных границ между объектами нет, критерии выделения этих самых объектов неясны, и их нужно выработать самостоятельно
Насколько я поняла из статьи, гугловская программа не выделяет объекты, она просто собирает все картинки с котами в одну группу, это другая задача.
ага, окей
Что вы тут имеете в виду под подгруппами и, главное, под признаком?)
подгруппа - согласно банальной теории множеств. Не знаю, что тут можно не понимать, честно говоря, поэтому не представляю, как объяснить. о_О
Признак - любой способ отличить объект от другого и (в контексте кластеров) измерить степень их похожести.
В качестве признаков использовались, как минимум, численные представления самих картинок.
Ну, кагбе, понятно, что цифровые изображения - это в любом случае некоторый набор чисел, но само по себе оно признаком не является ведь. Можно отличить пиксель А от пикселя Б, но это не то, что помогает выделить цельный объект "кот". Я полагаю, что для выделения объекта "кот" на картинке с помощью алгоритмов кластеризации необходимо задать способ выделения объекта из картинки и сравнения различных объектов между собой. Допустим, первое нейронная сеть умела изначально, но вот второе она, исходя из текста статьи, делать не умела. Т.е. никто не говорил ей, как отличить объект "мяч" от объекта "кот" - этому нейронная сеть научилась самостоятельно.
Если есть образцы, согласно этому определению, то это задача классификации, так как есть метки.
Замечательно. Только не очень понятно, к чему вы это. Я сказала, что нейронной сети не дали ни образцов, ни хороших данных, ни фидбека - и поэтому она крута. Далее мы разбирались с тем, что такое образцы. Так как их все равно тут нет, то как это называется, не важно.
А если кот белый? Или с белыми элементами? Или два кота? Нахождение границ объекта на изображении - само по себе задача, требующая решения.
Я вам всего лишь попыталась пояснить, как качество данных может скомпенсировать размытость постановки задачи. Конечно, проблемы в любом случае будут. Но я таки уверена, что на хороших данных задача "найти что-нибудь" трансформируется в задачу "найти кота" легко и быстро, а вот на "плохих" (разнообразных и замусоренных данных) переход от "найти что-нибудь" к "найти кота" - это штука нетривиальная, внезапная и заслуживающая особого внимания.
Насколько я поняла из статьи, гугловская программа не выделяет объекты, она просто собирает все картинки с котами в одну группу, это другая задача.
чтобы понять, что на картинке есть кот, необходимо уметь выделять объект на картинке и понимать, что это как раз кот и есть =)
Вы удивитесь, но нет. Выделять объект из картинки для ее категоризации совершенно не обязательно.
подгруппа - согласно банальной теории множеств. Не знаю, что тут можно не понимать, честно говоря, поэтому не представляю, как объяснить
Я скорее про то, заданы ли подгруппы заранее или нет. Но я вас поняла.
Я полагаю, что для выделения объекта "кот" на картинке с помощью алгоритмов кластеризации необходимо задать способ выделения объекта из картинки и сравнения различных объектов между собой.
Еще раз, нигде не сказано, что сеть умеет выделять кота на картинке. Для определения существования кота на картинке информации о яркости пикселей может быть вполне достаточно. Да даже если выделить объект, алгоритм будет работать не с объектом вообще, а с теми или иными численными признаками объекта, например, с средней яркостью пикселей в объекте)
Я сказала, что нейронной сети не дали ни образцов, ни хороших данных, ни фидбека - и поэтому она крута.
Да нет в этом ничего особо крутого. В смысле прорывного с точки зрения машинного обучения. Это сложная задача, требует огромного количества данных для настройки, но ничего сверхестественного, никакого саморазвития и прочего тут пока не видно. Конечно, дьявол скорее всего в деталях. Может быть гугловская сеть действительно находит границы, хотя и это тоже уже в той или иной степени существует. Если картинки объединены в подгруппу по какому-либу признаку, то существуют алгоритмы как найти и выделить общий объект на этих картинках, называется тема weakly-supervised segmentation.
Так как их все равно тут нет, то как это называется, не важно
Это я все пыталась наши терминологии друг к друг свести
Но я таки уверена, что на хороших данных задача "найти что-нибудь" трансформируется в задачу "найти кота" легко и быстро, а вот на "плохих" (разнообразных и замусоренных данных) переход от "найти что-нибудь" к "найти кота" - это штука нетривиальная, внезапная и заслуживающая особого внимания
Хорошие данные всегда упрощают задачу, но не настолько
Спасибо за беседу!
Являюсь
на моем уровне обсуждение стало уже занудным. Без обид. Концептуально, что хотела, высказала. =)
Да ничего, просто спекуляции на теме искусственного интеллекта и ААА!Машинынасзавоюют!!! моя больная тема. Я занимаюсь машинным обучением (один из подразделов ИИ) и уже задолбалась отвечать на вопрос "способны ли машины к самостятельному мышлению". Нет, не способны, у них, если хотите, нет для этого мотивации. Мы можем их заставить решать какие-то конкретные задачи в строго заданных нами рамках: скажем искать кота - будут искать кота, скажем искать что-нибудь разное - будут искать что-нибудь разное, иногда это что-нибудь будет оказываться котом. Вот, собственнл, и все. Так что это конкретное достижение компании Google тоже ничего не доказывает и не подтверждает, как бы ни презентовал это журналист.
Спасибо за беседу!
И вам
you can't kill romantics though.
Ученые гомеопатию и астрологию победить не могут, куда уж нам с киберпанком тягаться