kobak: (Default)
[personal profile] kobak
Интересное интервью Смирнова Гельфанду: http://trv-science.ru/2017/01/17/stanislav-smirnov-mathwalks/. Среди прочего, Смирнов говорит: "Последняя статья, которую я написал с коллегами, как раз по биологии. Мы изучаем раскраску конкретного семейства ящериц и показываем, что уравнения реакции-диффузии Тьюринга, связывающие концентрации хроматофоров, при переменных коэффициентах..." (тут Гельфанд его перебивает). Попытался найти эту статью и не могу; в архиве нет, в google scholar нет, на женевском сайте Смирнова нет, на сайте лаборатории Чебышева тоже нет. Может быть, статья еще не написана? Судя по разговору, непохоже: Гельфанд там хмыкает, мол, это простая математика и простая биология, а Смирнов ему на это -- ты не торопись, лучше почитай. Никто не знает, о чем речь?

Еще Смирнов рассказывает про (в ML хорошо известные) recommender systems для нетфликсовского конкурса на базе SVD with missing data и говорит, что это "похоже на биологические вещи". Это спорно, и Гельфанд сразу начинает спорить; но может быть, и правда похоже. Я вот как раз с нового года настраиваю что-то подобное для single cell RNA sequencing: технология фантастическая, но глубина секвенирования (пока?) не очень и существенный процент генов не детектируется, т.е. их уровень экспрессии измерен как нулевой, хотя на самом деле это missing value.

Date: 2017-01-30 10:17 pm (UTC)
From: [identity profile] kobak.livejournal.com
Я имею в виду high-throughput scRNA-seq, там все довольно фантастическое. Можно взять и секвенировать РНК из 25000 отдельных клеток так, чтобы на выходе знать, какие РНК из какой клетки (пример: http://www.cell.com/cell/abstract/S0092-8674(16)31007-8). Все РНК при этом высасываются из клеток и сливаются в один бульон, который потом и секвенируется, но надо же каждый фрагмент при этом пометить уникальным кодом, соответствующим клетке, из которой этот фрагмент достали.

Ну или т.н. patch-seq (http://www.nature.com/nbt/journal/v34/n2/abs/nbt.3445.html и http://www.nature.com/nbt/journal/v34/n2/abs/nbt.3443.html). Это совсем новые работы: сначала делают patch-clamp, записывают электрофизиологию, а потом прямо через ту же пипетку высасывают содержимое клетки и секвенируют РНК. Это, конечно, не high-throughput, а ручная работа, так что на выходе пока получается 100-200 клеток, но сочетание электрофизиологии и секвенирования впечатляет.

Date: 2017-02-05 01:58 pm (UTC)
From: [identity profile] vvz.livejournal.com
Интересно, с немецким Нанионом или датским Софионом авторы уже связались? High-throughput patch clamp системы уже давно используются и, говорят, крысиные нейроны на них тоже удается записывать. 384 клетки за раз и разгребай потом данные ;-)

Date: 2017-02-07 02:36 pm (UTC)
From: [identity profile] am.livejournal.com
Очень интересно. А есть у вас там семинар или Journal club, где об этих направлениях рассказывается? Или, м.б., какой приезжий гость с докладом в ближайшее время приглашен?

Date: 2017-02-07 07:26 pm (UTC)
From: [identity profile] kobak.livejournal.com
Вроде бы нет и нет, но если что-то появится или кто-то приедет, я дам знать.

Date: 2017-02-08 12:49 am (UTC)
From: [identity profile] am.livejournal.com
Спасибо.

Date: 2017-02-08 02:15 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
спасибо, прочитал первую статью -- они пытаются работать на качественном уровне(есть экспрессия гена/нет экспрессии). не думаю что у них получится, но хотя бы понятно почему возник интерес к пропущенным значениям. мне не кажется, что SVD with missing data удасться полезно применить к експрессионным данным. его уже пытались использовать в начале веке, для коррекции гибридизационных результатов. развития, насколько я знаю, эта техника и тогда не получила, хотя некоторая логика в теории была. а к резутатам современного RNA-Seq даже теоретически не очень понятно как он может быть полезен

Date: 2017-02-10 04:31 pm (UTC)
From: [identity profile] kobak.livejournal.com
Почему на качественном? Ну т.е. на marker genes они там тоже смотрят, но основная работа dimensionality reduction + clustering (Figure 1C) сделана на количественных уровнях экспрессии. Большое кол-во отсутствующих значений в data matrix может такой анализ сильно попортить. Но насколько эти значения можно восстановить тем или иным образом (не обязательно SVD), я пока не могу сказать.

Почему на качественном?

Date: 2017-02-10 07:35 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
The median number of reads supporting each detected transcript was 4 (IQR 3-7), but this distribution was very wide (Figure S1B).
95% of non-zero gene-counts in the filtered matrix had a value less than or equal to 3 (75% 1’s, 16% 20s and 4% 30s), suggesting that
our data (given the shallow sequencing depth) primarily reflected presence/absence of transcripts and did not capture the full dynamic
range for most transcripts (Figure S1C).

Date: 2017-02-15 03:45 pm (UTC)
From: [identity profile] kobak.livejournal.com
Да, Вы правы: там очень "shallow" секвенирование, порядка 10 тыс. reads на клетку. Данные, с которыми я сейчас работаю (Cadwell et al 2016), -- это глубокое секвенирование, >1 млн reads на клетку.

Date: 2017-02-15 05:35 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
не перечитывал, но вроде бы у них 8К в среднем детектированых транскриптов и пара сотен К полезных ридов на клетку

миллион все равно очень мало, при лобовом подходе на RNASeq надо 10-30 миллионов. в этом одна из основных проблем метода: в общем потоке секвинируется куча хорошо представленой но малоинтересной РНК,которая отжирает reads у важных и интересных исследователю генов

Profile

kobak: (Default)
kobak

May 2026

S M T W T F S
     12
3456789
10111213 141516
17181920212223
24252627282930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 23rd, 2026 07:13 am
Powered by Dreamwidth Studios